Известные архитектуры: LeNet, AlexNet, VGG, ResNet
Несколько архитектур задали развитие компьютерного зрения — полезно знать их по именам и за что каждая отвечает.
Архитектура сети — конкретная схема: сколько слоёв, какого типа, как они соединены. Именно архитектурные идеи двигали прогресс CV.
LeNet-5 (1998): начало
Сеть Яна Лекуна для распознавания рукописных цифр (индексы на конвертах). Маленькая по меркам сегодня, но именно она задала каноническую схему «свёртка → пулинг → свёртка → пулинг → полносвязные слои». Доказала, что обучаемые свёртки работают, хотя массового прорыва тогда ещё не случилось — не хватало данных и вычислений.
AlexNet (2012): перелом
Та самая сеть, что выиграла ImageNet с огромным отрывом и запустила эпоху глубокого обучения в CV. По сути — увеличенная LeNet, но с критическими добавками: обучение на GPU, активация ReLU (ускорила обучение глубоких сетей) и dropout против переобучения. Показала: дайте свёрточной сети много данных и вычислений — и она побьёт ручные признаки.
VGG (2014): глубже и единообразнее
VGG довела идею до предела простоты: только маленькие свёртки 3×3, сложенные в глубокую (16–19 слоёв) однородную стопку. Доказала, что глубина важна: больше слоёв — богаче иерархия признаков. Минус — тяжёлая и медленная, очень много параметров.
ResNet (2015): остаточные связи
Когда сети попытались сделать ещё глубже (50, 100, 150 слоёв), всплыла проблема: очень глубокие сети обучались хуже мелких — сигнал и градиенты «затухали». ResNet решила это остаточными связями (skip connections): вход слоя добавляется к его выходу в обход. Слой учится не всему преобразованию, а лишь «поправке» к входу.
# Идея остаточного блока
выход = F(вход) + вход
# ^^^^^^ ^^^^^
# что выучил слой прямой проброс входа
Этот простой проброс позволил обучать сети в сотни слоёв: даже если блок «ничего не выучил», вход беспрепятственно проходит дальше. ResNet и её идеи лежат в основе огромного числа современных моделей.
| Сеть | Год | Главная идея |
| LeNet-5 | 1998 | каноническая схема свёртка+пулинг |
| AlexNet | 2012 | GPU, ReLU, dropout — старт эпохи DL |
| VGG | 2014 | глубина из простых свёрток 3×3 |
| ResNet | 2015 | остаточные связи — очень глубокие сети |
Итог
- LeNet задала схему, AlexNet запустила эпоху глубокого обучения.
- VGG показала ценность глубины из простых свёрток 3×3.
- ResNet ввела остаточные связи (
F(x) + x), позволив обучать сети в сотни слоёв. - Прогресс CV во многом — это история архитектурных идей.