Известные архитектуры: LeNet, AlexNet, VGG, ResNet

Несколько архитектур задали развитие компьютерного зрения — полезно знать их по именам и за что каждая отвечает.

Архитектура сети — конкретная схема: сколько слоёв, какого типа, как они соединены. Именно архитектурные идеи двигали прогресс CV.

LeNet-5 (1998): начало

Сеть Яна Лекуна для распознавания рукописных цифр (индексы на конвертах). Маленькая по меркам сегодня, но именно она задала каноническую схему «свёртка → пулинг → свёртка → пулинг → полносвязные слои». Доказала, что обучаемые свёртки работают, хотя массового прорыва тогда ещё не случилось — не хватало данных и вычислений.

AlexNet (2012): перелом

Та самая сеть, что выиграла ImageNet с огромным отрывом и запустила эпоху глубокого обучения в CV. По сути — увеличенная LeNet, но с критическими добавками: обучение на GPU, активация ReLU (ускорила обучение глубоких сетей) и dropout против переобучения. Показала: дайте свёрточной сети много данных и вычислений — и она побьёт ручные признаки.

VGG (2014): глубже и единообразнее

VGG довела идею до предела простоты: только маленькие свёртки 3×3, сложенные в глубокую (16–19 слоёв) однородную стопку. Доказала, что глубина важна: больше слоёв — богаче иерархия признаков. Минус — тяжёлая и медленная, очень много параметров.

ResNet (2015): остаточные связи

Когда сети попытались сделать ещё глубже (50, 100, 150 слоёв), всплыла проблема: очень глубокие сети обучались хуже мелких — сигнал и градиенты «затухали». ResNet решила это остаточными связями (skip connections): вход слоя добавляется к его выходу в обход. Слой учится не всему преобразованию, а лишь «поправке» к входу.

# Идея остаточного блока
выход = F(вход) + вход
#        ^^^^^^   ^^^^^
#        что выучил слой   прямой проброс входа

Этот простой проброс позволил обучать сети в сотни слоёв: даже если блок «ничего не выучил», вход беспрепятственно проходит дальше. ResNet и её идеи лежат в основе огромного числа современных моделей.

СетьГодГлавная идея
LeNet-51998каноническая схема свёртка+пулинг
AlexNet2012GPU, ReLU, dropout — старт эпохи DL
VGG2014глубина из простых свёрток 3×3
ResNet2015остаточные связи — очень глубокие сети

Итог

  • LeNet задала схему, AlexNet запустила эпоху глубокого обучения.
  • VGG показала ценность глубины из простых свёрток 3×3.
  • ResNet ввела остаточные связи (F(x) + x), позволив обучать сети в сотни слоёв.
  • Прогресс CV во многом — это история архитектурных идей.
Проверьте себя
1. Какую проблему решили остаточные связи (skip connections) в ResNet?
AНехватку цвета
BЗатухание сигнала и градиентов в очень глубоких сетях, из-за которого глубокие модели обучались хуже мелких
CСлишком быстрое обучение
DНизкое разрешение картинок
2. Чем AlexNet (2012) так важна для истории CV?
AЭто первая сеть вообще
BОна выиграла ImageNet с большим отрывом и запустила эпоху глубокого обучения, применив GPU, ReLU и dropout
CОна работала без обучения
DОна распознавала только цифры
3. Какую идею довела до предела архитектура VGG?
AОтказ от свёрток
BГлубину: много слоёв из простых однотипных свёрток 3×3 дают богатую иерархию признаков
CМинимизацию числа слоёв
DРаботу только с серым
Поддержать проект