Филогенетика: эволюционные деревья

Филогенетическое дерево — это карта родства видов или генов. Научиться его читать так же важно, как строить.

Филогенетическое дерево — схема эволюционных связей: листья — существующие виды или последовательности, внутренние узлы — общие предки, ветви — эволюционный путь.

Прежде чем строить дерево алгоритмом (следующий урок), нужно понимать, что дерево означает. Неправильное чтение топологии ведёт к ложным выводам о родстве. Разберём анатомию дерева и типичные заблуждения.

Анатомия дерева

  • Листья (терминальные узлы) — то, что мы наблюдаем: виды, гены, образцы.
  • Внутренние узлы — гипотетические общие предки (их мы не видели, а реконструируем).
  • Ветви — линии эволюции; их длина часто пропорциональна числу накопленных изменений (или времени).
  • Корень — общий предок всех; задаёт направление времени. Дерево без корня показывает родство, но не «кто раньше».
          /-- Человек
      /--|
     |    \-- Шимпанзе
  ---|
     |    /-- Мышь
      \--|
          \-- Крыса
(человек и шимпанзе — ближайшие родственники: общий узел глубже)

Главное правило чтения: близость = общий предок

Родство определяется не расстоянием вдоль страницы, а тем, насколько недавно у двух листьев был общий предок (как глубоко их соединяющий узел). Два листа рядом на картинке могут быть дальними родственниками, если их объединяющий узел — у самого корня. Соседство по вертикали обманчиво; смотрите на узлы.

Представим дерево скобочной записью (формат Newick) и определим, кто кому ближе, по вложенности скобок.

tree = '((Человек,Шимпанзе),(Мышь,Крыса))'
print('Newick:', tree)
print()
# Чем глубже общая скобка, тем ближе родство
print('Человек и Шимпанзе в общей скобке (Человек,Шимпанзе) -> близкие')
print('Человек и Мышь объединяются только на верхнем уровне -> дальние')

Вывод:

Newick: ((Человек,Шимпанзе),(Мышь,Крыса))

Человек и Шимпанзе в общей скобке (Человек,Шимпанзе) -> близкие
Человек и Мышь объединяются только на верхнем уровне -> дальние

Формат Newick кодирует дерево скобками: вложенность = родство. ((Человек,Шимпанзе),...) значит, что человек и шимпанзе объединяются первыми (ближе всего). Этот текстовый формат — стандарт хранения деревьев.

Длина ветвей и укоренение

В филограмме длина ветви несёт смысл — число замен или время; в кладограмме длины условны, важна только топология. Укоренение задаёт направление эволюции; часто корень ставят с помощью внешней группы (outgroup) — заведомо дальнего родственника, относительно которого ориентируют остальных.

Как работает под капотом: дерево — это гипотеза

Важно помнить: дерево — не факт, а наилучшая гипотеза при данных и методе. Разные методы и данные могут дать разные деревья. Поэтому к ветвям приписывают меру надёжности (bootstrap): данные многократно пересэмплируют, строят дерево заново и смотрят, как часто данная ветвь воспроизводится. Bootstrap 95% — ветвь надёжна; 50% — сомнительна. Без оценки поддержки красивое дерево может вводить в заблуждение.

Полезно знать и о подводных камнях интерпретации, на которых спотыкаются даже специалисты. Первый — разница между деревом генов и деревом видов: один конкретный ген может иметь историю, слегка отличную от истории видов (из-за дупликаций генов, неполной сортировки линий, горизонтального переноса). Поэтому надёжные филогении строят не по одному гену, а по многим. Второй камень — «притяжение длинных ветвей»: быстро эволюционирующие линии иногда ошибочно группируются вместе просто потому, что обе сильно изменились, а не из-за родства. Третий — укоренение: без внешней группы корень ставится произвольно, и направление «кто древнее» может оказаться обманчивым. Чтение дерева — это навык критического мышления: красивая картинка всегда сопровождается вопросами «по каким данным?», «какова поддержка?», «как укоренено?».

Где филогенетические деревья работают на практике, помимо академического интереса? Их применяют в эпидемиологии, чтобы по геномам вирусных образцов восстановить, как и откуда распространялась инфекция (так строили деревья штаммов SARS-CoV-2 и отслеживали новые варианты). В судебной медицине деревья помогали устанавливать источник заражения. В фарме филогения семейства белков подсказывает, какие мишени консервативны у патогена, но отсутствуют у человека, — идеальные кандидаты для лекарств. В экологии по «штрихкодам» ДНК определяют виды в пробе воды или почвы. Дерево — это не абстракция, а рабочий инструмент, превращающий набор последовательностей в историю и в практические решения.

Частые ошибки

  • Читать родство по вертикальной близости. Важна глубина общего узла, а не соседство на картинке.
  • Считать длины ветвей значимыми в кладограмме. Там они условны; смысл несёт только филограмма.
  • Принимать дерево за абсолютную истину. Это гипотеза; смотрите на bootstrap-поддержку.

Итог

  • Дерево: листья — наблюдаемые таксоны, внутренние узлы — предки, ветви — эволюция, корень — направление времени.
  • Родство определяется глубиной общего узла, а не близостью на рисунке.
  • Newick кодирует дерево скобками; вложенность отражает родство.
  • Дерево — гипотеза; её надёжность оценивают bootstrap-поддержкой ветвей.
Проверьте себя
1. Как по дереву определить, какие два листа ближе родственны?
AПо близости на картинке по вертикали
BПо тому, насколько недавно (глубоко) у них общий узел-предок
CПо длине названий
DПо порядку слева направо
2. Что кодирует формат Newick ((Человек,Шимпанзе),(Мышь,Крыса))?
AСписок без структуры
BТопологию дерева: вложенность скобок отражает родство
CМатрицу расстояний
DВыравнивание
3. Что показывает bootstrap-поддержка ветви?
AДлину ветви в годах
BНасколько надёжна ветвь: как часто она воспроизводится при пересэмплировании данных
CGC-состав
DЧисло листьев