Геномная медицина, этика и мини-проекты

Биоинформатика выходит из лаборатории в клинику и в нашу жизнь. С этим приходят и медицинские прорывы, и серьёзные этические вопросы.

Персонализированная медицина — подход, при котором профилактику и лечение подбирают под генетические особенности конкретного пациента.

Завершим курс взглядом на применение и ответственность. Геномика уже спасает жизни (подбор онколечения по мутациям опухоли), но ДНК — самые чувствительные персональные данные, какие бывают. А затем соберём навыки курса в три практические мини-задачи.

Геномная медицина: что уже работает

Онкогеномика. Секвенируют опухоль, находят драйверные мутации и подбирают таргетный препарат именно под них.
Наследственные болезни. Поиск патогенного варианта объясняет диагноз и помогает семье (носительство, планирование).
Фармакогеномика. Гены определяют, как пациент метаболизирует лекарство; по ним корректируют дозу.
Скрининг новорождённых и неинвазивные тесты. Раннее выявление рисков по ДНК.

Этика: почему ДНК особенная

Генетические данные уникальны по чувствительности:

Неизменность. Пароль можно сменить, ДНК — нет. Утечка генома необратима.
Семейность. Ваш геном раскрывает информацию и о родственниках, которые согласия не давали.
Предсказательность. ДНК говорит о будущих рисках — соблазн для дискриминации (страховки, работодатели).
Деанонимизация. Геном нельзя по-настоящему обезличить — он сам и есть идентификатор.

Правовая защита: 152-ФЗ и GDPR

Поэтому геномные данные защищают законом как особую категорию. В России это 152-ФЗ «О персональных данных» (геномная информация — биометрические/специальные данные, требующие усиленной защиты и, как правило, хранения на серверах в РФ). В Европе — GDPR, где генетические данные прямо отнесены к особой категории с повышенными требованиями к согласию и обработке. Практический вывод для разработчика: геномный сервис обязан проектироваться с приватностью «по умолчанию», явным информированным согласием, шифрованием и контролем доступа. Это не опция, а требование закона.

Мини-проект 1: найти ген в геноме

Собираем поиск ORF (раздел про код) и подсчёт длины. Дан фрагмент — найдём в нём самый длинный потенциальный ген.

DNA_STOPS = {'TAA', 'TAG', 'TGA'}

def longest_orf(seq):
    best = ''
    for frame in range(3):
        i = frame
        while i < len(seq) - 2:
            if seq[i:i+3] == 'ATG':
                j = i
                while j < len(seq) - 2:
                    if seq[j:j+3] in DNA_STOPS:
                        orf = seq[i:j+3]
                        if len(orf) > len(best):
                            best = orf
                        break
                    j += 3
            i += 3
    return best

genome = 'CCATGAAACCCGGGTTTTAGCCATGCCCTGA'
orf = longest_orf(genome)
print('Самый длинный ORF:', orf)
print('Длина (букв):', len(orf))

Вывод:

Самый длинный ORF: ATGAAACCCGGGTTTTAG
Длина (букв): 18

Мини-проект 2: сравнить два белка

Используем глобальное выравнивание (Нидлман-Вунш) для оценки идентичности двух коротких белков.

def identity(a, b):
    n, m = len(a), len(b)
    dp = [[0]*(m+1) for _ in range(n+1)]
    for i in range(1, n+1): dp[i][0] = -i
    for j in range(1, m+1): dp[0][j] = -j
    for i in range(1, n+1):
        for j in range(1, m+1):
            s = 1 if a[i-1] == b[j-1] else -1
            dp[i][j] = max(dp[i-1][j-1]+s, dp[i-1][j]-1, dp[i][j-1]-1)
    matches = sum(1 for x, y in zip(a, b) if x == y)
    return dp[n][m], matches / max(len(a), len(b)) * 100

p1 = 'MKVLLATT'
p2 = 'MKVLLATS'
score, pct = identity(p1, p2)
print(f'Счёт выравнивания: {score}')
print(f'Идентичность: {pct:.0f}%')

Вывод:

Счёт выравнивания: 6
Идентичность: 88%

Мини-проект 3: дерево по последовательностям

Собираем расстояние Хэмминга (раздел про паттерны) и UPGMA (филогенетика) в мини-конвейер «последовательности → дерево».

def hamming(a, b):
    return sum(1 for x, y in zip(a, b) if x != y)

seqs = {'A': 'ACGTACGT', 'B': 'ACGTACGA', 'C': 'TTTTACGT'}
labels = list(seqs); vals = list(seqs.values())
for i in range(len(labels)):
    for j in range(i+1, len(labels)):
        d = hamming(vals[i], vals[j])
        print(f'{labels[i]}-{labels[j]}: {d}')
print('Ближайшая пара объединится первой в дереве UPGMA')

Вывод:

A-B: 1
A-C: 3
B-C: 4
Ближайшая пара объединится первой в дереве UPGMA

Как работает под капотом: ответственность важнее кода

Технически найти SNP или построить дерево несложно — вы это умеете. Но в медицинском контексте цена ошибки — здоровье человека. Поэтому клиническая биоинформатика обвешана валидацией, контролем качества, регуляторными требованиями (например, аккредитация лабораторий). Хороший биоинформатик в медицине — это не только тот, кто пишет код, но и тот, кто понимает пределы метода, неопределённость результата и этические границы. Это финальный и, возможно, главный навык курса.

Частые ошибки

Относиться к геному как к обычным данным. ДНК неизменна, семейна и предсказательна — нужна особая защита.
Считать «обезличенный» геном анонимным. Геном сам по себе идентификатор; полная анонимизация невозможна.
Выдавать находку за диагноз. Технический результат требует клинической валидации и осторожной интерпретации.

Итог

Геномика уже в клинике: онкогеномика, наследственные болезни, фармакогеномика.
ДНК — особо чувствительные данные (неизменны, семейны, предсказательны); защищены 152-ФЗ и GDPR.
Навыки курса собираются в практику: поиск гена, сравнение белков, дерево по последовательностям.
В медицине ответственность, валидация и понимание пределов важнее самого кода.