Секвенирование и клонирование

Урок о том, как биологи читают «текст» ДНК буква за буквой и как делают точные копии генов и организмов.

Секвенирование — определение точной последовательности нуклеотидов в ДНК; клонирование — получение идентичных копий гена или организма.

Секвенирование: читаем ДНК

Знать GC-состав хорошо, но настоящая цель — прочитать всю последовательность. Классический метод Сэнгера использует «обрывающие» нуклеотиды, дающие фрагменты разной длины; по их размерам восстанавливают порядок букв. Современное секвенирование нового поколения (NGS) читает миллионы фрагментов параллельно и собирает геном из «прочтений» (ридов).

Сборка генома — это, по сути, задача собрать длинный текст из перекрывающихся кусочков. Покрытие показывает, сколько раз в среднем прочитана каждая позиция:

$$ \text{Покрытие} = \frac{N \cdot L}{G} $$

где $N$ — число ридов, $L$ — длина рида, $G$ — размер генома.

reads = 1_000_000   # число прочтений
read_len = 150      # длина одного рида
genome = 30_000_000 # размер генома
coverage = reads * read_len / genome
print("Ридов:", reads)
print("Длина рида:", read_len)
print("Размер генома:", genome)
print("Среднее покрытие, x:", round(coverage, 1))

Вывод:

Ридов: 1000000
Длина рида: 150
Размер генома: 30000000
Среднее покрытие, x: 5.0

Покрытие 5x означает, что в среднем каждая буква генома прочитана пять раз — это помогает отличить настоящие отличия от ошибок чтения.

Клонирование

Слово «клонирование» означает два разных дела:

  • Молекулярное клонирование — вставка нужного гена в кольцевую ДНК (плазмиду) бактерии, которая затем размножает его в миллионах копий. Так производят инсулин и другие лекарства.
  • Клонирование организма — создание генетически идентичной особи (классический пример — овца Долли, полученная переносом ядра).

Рестриктазы и лигазы — «ножницы и клей»

Чтобы вставить ген в плазмиду, ДНК режут ферментами-рестриктазами в строго определённых местах и сшивают лигазой. Это инструменты «генной инженерии» до эпохи CRISPR.

Как работает под капотом

Высокое покрытие при секвенировании — это статистика: ошибки чтения случайны и редки, поэтому если позиция прочитана много раз, верное основание «перевесит» случайные ошибки голосованием большинства. Чем выше покрытие, тем надёжнее результат, но тем дороже секвенирование — отсюда компромисс в реальных проектах. А молекулярное клонирование опирается на то, что бактерия исправно копирует любую попавшую в неё плазмиду — мы используем её репликацию как «фабрику».

Частые ошибки

  • Считают, что клонирование — это всегда про целые организмы. Чаще речь о копировании гена.
  • Думают, что одного прочтения достаточно. Из-за ошибок нужно покрытие в несколько иксов.
  • Путают секвенирование (чтение) и ПЦР (размножение): это разные задачи.

Итог

  • Секвенирование читает порядок нуклеотидов; геном собирают из перекрывающихся ридов.
  • Покрытие = $N \cdot L / G$; высокое покрытие повышает надёжность.
  • Молекулярное клонирование размножает ген в бактериальной плазмиде.
  • Рестриктазы режут, лигазы сшивают ДНК — основа классической генной инженерии.
Проверьте себя
1. Что такое покрытие при секвенировании?
AДлина генома
BСколько раз в среднем прочитана каждая позиция генома
CЧисло генов в геноме
DСкорость секвенатора
2. Что делают рестриктазы в молекулярном клонировании?
AСшивают ДНК
BРежут ДНК в определённых местах
CЧитают последовательность
DУдваивают число копий