Антибот-защиты: как сайты ловят ботов

Сайты учатся отличать ботов от людей — и скрейпер должен понимать, как.

Антибот-системы (Cloudflare, DataDome, Akamai) анализируют заголовки, отпечатки (fingerprints), поведение и частоту запросов. Их цель — не сломать твой код, а отсеять вредную автоматизацию. Лучшая стратегия — не выглядеть вредным.

Когда вместо данных приходит капча или 403, значит, сработала антибот-защита. Важно понимать её логику — не чтобы агрессивно «обходить» (это часто этически и юридически сомнительно), а чтобы скрейпить так, чтобы тебя не приходилось блокировать. Разберём, по каким признакам сайты распознают ботов.

Как сайты распознают ботов

Признак	Что выдаёт бота
User-Agent и заголовки	Пустой или «питоний» UA, отсутствие Accept-Language, Referer
Частота запросов	Сотни запросов в секунду — человек так не умеет
TLS/JA3-отпечаток	HTTP-клиенты имеют узнаваемый «почерк» рукопожатия
JavaScript-челлендж	Бот без браузера не исполнит проверочный скрипт
Поведение	Нет движений мыши, идеально ровные интервалы, одинаковый путь

  запрос -> [ антибот-фильтр ] -> сайт
               │
               ├─ заголовки норм?      нет -> 403
               ├─ частота адекватна?   нет -> 429
               ├─ JS-челлендж пройден? нет -> капча
               └─ отпечаток как браузер? нет -> блок

  вывод: меньше всего блокируют того, кто ведёт себя как человек

Как работает под капотом

Антибот вешается перед сайтом и оценивает каждый запрос по совокупности сигналов. Слабый сигнал (один странный заголовок) даёт мягкую реакцию — JS-челлендж. Сильный (шквал запросов с «питоньим» UA) — жёсткую: 403 или капчу. Машинное обучение сопоставляет твой паттерн с моделью «человек/бот». Поэтому надёжнее всего — естественное поведение: разумная частота, полные заголовки, при необходимости настоящий браузер. Смоделируем простой rate-limiter, который держит вежливый темп:

Попробуй сам ▶

# простейший контроль частоты: не чаще 1 запроса в N 'тиков'
requests_log = []   # отметки времени (условные секунды)
clock = 0
min_gap = 2         # минимум 2 секунды между запросами

def can_send(now, last):
    return last is None or (now - last) >= min_gap

last = None
plan = [0, 1, 3, 4, 7]   # моменты, когда хотим слать
for now in plan:
    if can_send(now, last):
        requests_log.append(now)
        last = now
        print(f't={now}: запрос отправлен')
    else:
        print(f't={now}: ПРОПУСК (слишком рано, ждём)')

print('Отправлено вежливо:', requests_log)

Защита и обход: где проходит этическая граница

Вокруг «обхода» антибот-систем выросла целая индустрия: ротация прокси, подмена отпечатков, headless-браузеры с маскировкой, сервисы решения капч. Важно понимать, что технический обход и этичный скрейпинг — не одно и то же. Если сайт ставит лёгкий JS-челлендж, его прохождение через настоящий браузер выглядит естественно. Но целенаправленное преодоление капчи, имитация отпечатков и массовая ротация IP, чтобы скрыть автоматизацию, — это уже сигнал, что владелец явно не хочет, чтобы его скрейпили, и ты идёшь против его воли.

Здоровая позиция: антибот-защита — это сообщение, а не препятствие, которое нужно во что бы то ни стало сломать. Лёгкое сопротивление часто снимается простой добротой к серверу — реалистичными заголовками и человеческой частотой. Жёсткая, многослойная защита говорит прямо: «данные не для массового сбора». В этом случае правильный путь — не гонка вооружений со службой безопасности сайта, а поиск легального канала: официальный API, партнёрская выгрузка, покупка данных или прямая договорённость с владельцем. Такой подход и безопаснее юридически, и устойчивее технически: решение, построенное на согласии, не ломается от каждого обновления защиты.

Частые ошибки

Слать запросы без заголовков. Пустой или дефолтный «питоний» User-Agent — первый красный флаг.
Долбить на максимальной скорости. Это и срабатывание антибота, и реальный вред сайту.
Воспринимать обход капчи как самоцель. Агрессивный обход защит часто нарушает ToS и закон.

Best practices

Шли полные, реалистичные заголовки и честный User-Agent.
Держи человеческую частоту: задержки, ограничение параллелизма, реакция на 429.
Если сайт явно и настойчиво защищается — это сигнал «не хотят, чтобы их скрейпили». Уважай это или ищи API/договорённость.

Наконец, помни, что устойчивость решения важнее сиюминутного успеха. Скрейпер, построенный на агрессивном обходе защит, живёт от обновления до обновления: сайт меняет проверку — твой код ломается, начинается бесконечная гонка. Решение, построенное на согласии и вежливости — официальный API, разумная частота, честная идентификация, — стабильно работает годами, потому что не воюет с владельцем, а сотрудничает с ним. Выбор в пользу такого подхода — это не только этика, но и трезвый инженерный расчёт на долгую перспективу.

Итог: антибот-системы ловят ботов по заголовкам, частоте, отпечаткам и поведению. Самая надёжная и этичная стратегия — не «обходить» защиту силой, а вести себя как вежливый человек, которого незачем блокировать.