GC-состав ДНК: расчёт и смысл
Урок про важнейшую числовую характеристику ДНК — долю пар G-C — и про то, что она говорит о молекуле.
GC-состав — доля оснований G и C в последовательности ДНК, выраженная в процентах; влияет на термостабильность молекулы.
Зачем считать GC-состав
GC-состав — это «паспортная» характеристика последовательности. У разных организмов он разный (у некоторых бактерий доходит до 70%). Гены с высоким GC-составом прочнее держатся, их ДНК труднее расплести. При проектировании праймеров для ПЦР биологи следят за GC-составом, чтобы праймер надёжно садился на мишень.
Формула
Доля G плюс C считается так:
$$ \text{GC} = \frac{n_G + n_C}{n_A + n_T + n_G + n_C} \cdot 100\% $$
где $n_X$ — число оснований данного типа. Знаменатель — это просто длина последовательности.
def gc_content(seq):
g = seq.count("G")
c = seq.count("C")
return (g + c) / len(seq) * 100
seq = "ATGCGGCTAATTGCC"
print("Последовательность:", seq)
print("Длина:", len(seq))
print("G+C:", seq.count("G") + seq.count("C"))
print("GC-состав, %:", round(gc_content(seq), 1))Вывод:
Последовательность: ATGCGGCTAATTGCC Длина: 15 G+C: 8 GC-состав, %: 53.3
Связь с температурой плавления
Чем выше GC-состав, тем выше температура, при которой ДНК расходится на две цепи (плавится), потому что пары G-C держатся тремя связями. Для коротких праймеров есть грубая оценочная формула (правило Уоллеса):
$$ T_m \approx 2\,(n_A + n_T) + 4\,(n_G + n_C) $$
def tm_wallace(seq):
at = seq.count("A") + seq.count("T")
gc = seq.count("G") + seq.count("C")
return 2 * at + 4 * gc
primer = "ATGCGCTA"
print("Праймер:", primer)
print("GC-состав, %:", round(gc_content(primer), 1))
print("Tm (оценка), C:", tm_wallace(primer))Вывод:
Праймер: ATGCGCTA GC-состав, %: 50.0 Tm (оценка), C: 24
Как работает под капотом
За формулой стоит физика водородных связей. Каждая пара G-C добавляет три связи, каждая A-T — две. Поэтому в правиле Уоллеса коэффициент при G+C (это 4) вдвое больше, чем при A+T (это 2): один G-C-«вклад» стоит примерно как два A-T. Точные расчёты учитывают ещё и соседние пары (метод ближайших соседей), но для интуиции правило Уоллеса отлично работает.
Частые ошибки
- Делят на число только некоторых оснований, а не на полную длину. Знаменатель — длина всей последовательности.
- Считают GC-состав в процентах, но забывают умножить на 100.
- Применяют правило Уоллеса к длинным цепям — оно годится только для коротких праймеров (примерно до 14 оснований).
Итог
- GC-состав = доля (G+C) от всей длины, в процентах.
- Высокий GC-состав повышает температуру плавления ДНК.
- Правило Уоллеса: $T_m \approx 2(A{+}T) + 4(G{+}C)$ для коротких праймеров.
- За числами стоит физика: G-C даёт три водородные связи, A-T — две.