GC-состав ДНК: расчёт и смысл

Урок про важнейшую числовую характеристику ДНК — долю пар G-C — и про то, что она говорит о молекуле.

GC-состав — доля оснований G и C в последовательности ДНК, выраженная в процентах; влияет на термостабильность молекулы.

Зачем считать GC-состав

GC-состав — это «паспортная» характеристика последовательности. У разных организмов он разный (у некоторых бактерий доходит до 70%). Гены с высоким GC-составом прочнее держатся, их ДНК труднее расплести. При проектировании праймеров для ПЦР биологи следят за GC-составом, чтобы праймер надёжно садился на мишень.

Формула

Доля G плюс C считается так:

$$ \text{GC} = \frac{n_G + n_C}{n_A + n_T + n_G + n_C} \cdot 100\% $$

где $n_X$ — число оснований данного типа. Знаменатель — это просто длина последовательности.

def gc_content(seq):
    g = seq.count("G")
    c = seq.count("C")
    return (g + c) / len(seq) * 100

seq = "ATGCGGCTAATTGCC"
print("Последовательность:", seq)
print("Длина:", len(seq))
print("G+C:", seq.count("G") + seq.count("C"))
print("GC-состав, %:", round(gc_content(seq), 1))

Вывод:

Последовательность: ATGCGGCTAATTGCC
Длина: 15
G+C: 8
GC-состав, %: 53.3

Связь с температурой плавления

Чем выше GC-состав, тем выше температура, при которой ДНК расходится на две цепи (плавится), потому что пары G-C держатся тремя связями. Для коротких праймеров есть грубая оценочная формула (правило Уоллеса):

$$ T_m \approx 2\,(n_A + n_T) + 4\,(n_G + n_C) $$

def tm_wallace(seq):
    at = seq.count("A") + seq.count("T")
    gc = seq.count("G") + seq.count("C")
    return 2 * at + 4 * gc

primer = "ATGCGCTA"
print("Праймер:", primer)
print("GC-состав, %:", round(gc_content(primer), 1))
print("Tm (оценка), C:", tm_wallace(primer))

Вывод:

Праймер: ATGCGCTA
GC-состав, %: 50.0
Tm (оценка), C: 24

Как работает под капотом

За формулой стоит физика водородных связей. Каждая пара G-C добавляет три связи, каждая A-T — две. Поэтому в правиле Уоллеса коэффициент при G+C (это 4) вдвое больше, чем при A+T (это 2): один G-C-«вклад» стоит примерно как два A-T. Точные расчёты учитывают ещё и соседние пары (метод ближайших соседей), но для интуиции правило Уоллеса отлично работает.

Частые ошибки

  • Делят на число только некоторых оснований, а не на полную длину. Знаменатель — длина всей последовательности.
  • Считают GC-состав в процентах, но забывают умножить на 100.
  • Применяют правило Уоллеса к длинным цепям — оно годится только для коротких праймеров (примерно до 14 оснований).

Итог

  • GC-состав = доля (G+C) от всей длины, в процентах.
  • Высокий GC-состав повышает температуру плавления ДНК.
  • Правило Уоллеса: $T_m \approx 2(A{+}T) + 4(G{+}C)$ для коротких праймеров.
  • За числами стоит физика: G-C даёт три водородные связи, A-T — две.
Проверьте себя
1. Как считается GC-состав последовательности ДНК?
A(G + C) делить на длину последовательности, умножить на 100%
B(A + T) делить на (G + C)
CЧисло G делить на число C
DG + C, делить на 2
2. Как высокий GC-состав влияет на ДНК?
AСнижает температуру плавления
BПовышает температуру плавления
CНе влияет на стабильность
DДелает молекулу одноцепочечной