Глубокое обучение и большие языковые модели

Мост от основ ML к тому, о чём говорят все: глубокое обучение и большие языковые модели.

Глубокое обучение (deep learning) — машинное обучение на нейросетях с большим числом слоёв.

Что значит «глубокое»

«Глубина» — это много скрытых слоёв нейронов. В прошлом уроке мы видели сеть из нескольких слоёв; в глубоких сетях их десятки и сотни. Каждый слой выделяет всё более сложные закономерности. На изображениях, например, первые слои находят края и пятна, средние — части объектов (глаз, колесо), последние — объекты целиком (лицо, машина). Никто не программирует эти признаки вручную — сеть находит их сама в процессе обучения.

Чем глубокое обучение отличается от классического ML

	Классический ML	Глубокое обучение
Признаки	Часто придумывает человек	Сеть выделяет сама из сырых данных
Данные	Работает и на небольших	Нужно много данных
Вычисления	Скромные	Требует мощных GPU
Сильная сторона	Таблицы, понятные признаки	Картинки, звук, текст

Главный прорыв глубокого обучения — оно само находит полезные признаки в сырых данных (пикселях, звуке, тексте), где раньше человек мучительно конструировал их руками. Именно это дало скачок в распознавании речи, компьютерном зрении и переводе.

Что такое большие языковые модели (LLM)

Большая языковая модель (LLM) — очень крупная нейросеть, обученная на огромных объёмах текста предсказывать следующее слово.

В основе LLM лежит, казалось бы, скромная задача: по началу фразы предсказать, какое слово идёт дальше. Но когда такую модель с миллиардами параметров обучают на колоссальном корпусе текстов, происходит удивительное: чтобы хорошо угадывать следующее слово, ей приходится «впитать» грамматику, факты о мире, стиль и логику рассуждений. В итоге она умеет писать тексты, отвечать на вопросы, переводить и программировать — хотя училась всего лишь продолжать текст.

Технологический фундамент LLM — архитектура трансформер (transformer): она позволила эффективно учитывать связи между далёкими словами в тексте и обучаться на огромных данных параллельно. Это и сделало возможным сегодняшний скачок.

Почему это прорыв — и где границы

Универсальность. Одна модель решает множество задач без отдельного обучения под каждую — достаточно сформулировать запрос текстом.
Доступность. Пользоваться можно на естественном языке, без навыков программирования.

Но важно трезво понимать ограничения. LLM не «понимает» мир как человек — она оперирует статистикой языка. Поэтому она может уверенно выдать правдоподобную, но ложную информацию (это называют «галлюцинацией»), не знает событий после обучения и наследует перекосы своих данных. LLM — мощный инструмент, а не оракул; ответы стоит проверять.

Где здесь всё, что мы прошли

LLM — это вершина той же пирамиды, что мы строили весь курс: данные, признаки, нейроны, обучение на примерах, борьба с переобучением, метрики качества. Базовые принципы те же — изменился масштаб данных, модели и вычислений.

Итог

Глубокое обучение — нейросети с многими слоями; они сами выделяют признаки из сырых данных.
Его сила — картинки, звук и текст; цена — много данных и вычислений.
LLM — огромная нейросеть, обученная предсказывать следующее слово; так она впитывает язык и знания.
LLM не понимает мир буквально, может «галлюцинировать» — ответы нужно проверять.