Глубокое обучение и большие языковые модели
Мост от основ ML к тому, о чём говорят все: глубокое обучение и большие языковые модели.
Глубокое обучение (deep learning) — машинное обучение на нейросетях с большим числом слоёв.
Что значит «глубокое»
«Глубина» — это много скрытых слоёв нейронов. В прошлом уроке мы видели сеть из нескольких слоёв; в глубоких сетях их десятки и сотни. Каждый слой выделяет всё более сложные закономерности. На изображениях, например, первые слои находят края и пятна, средние — части объектов (глаз, колесо), последние — объекты целиком (лицо, машина). Никто не программирует эти признаки вручную — сеть находит их сама в процессе обучения.
Чем глубокое обучение отличается от классического ML
| Классический ML | Глубокое обучение | |
| Признаки | Часто придумывает человек | Сеть выделяет сама из сырых данных |
| Данные | Работает и на небольших | Нужно много данных |
| Вычисления | Скромные | Требует мощных GPU |
| Сильная сторона | Таблицы, понятные признаки | Картинки, звук, текст |
Главный прорыв глубокого обучения — оно само находит полезные признаки в сырых данных (пикселях, звуке, тексте), где раньше человек мучительно конструировал их руками. Именно это дало скачок в распознавании речи, компьютерном зрении и переводе.
Что такое большие языковые модели (LLM)
Большая языковая модель (LLM) — очень крупная нейросеть, обученная на огромных объёмах текста предсказывать следующее слово.
В основе LLM лежит, казалось бы, скромная задача: по началу фразы предсказать, какое слово идёт дальше. Но когда такую модель с миллиардами параметров обучают на колоссальном корпусе текстов, происходит удивительное: чтобы хорошо угадывать следующее слово, ей приходится «впитать» грамматику, факты о мире, стиль и логику рассуждений. В итоге она умеет писать тексты, отвечать на вопросы, переводить и программировать — хотя училась всего лишь продолжать текст.
Технологический фундамент LLM — архитектура трансформер (transformer): она позволила эффективно учитывать связи между далёкими словами в тексте и обучаться на огромных данных параллельно. Это и сделало возможным сегодняшний скачок.
Почему это прорыв — и где границы
- Универсальность. Одна модель решает множество задач без отдельного обучения под каждую — достаточно сформулировать запрос текстом.
- Доступность. Пользоваться можно на естественном языке, без навыков программирования.
Но важно трезво понимать ограничения. LLM не «понимает» мир как человек — она оперирует статистикой языка. Поэтому она может уверенно выдать правдоподобную, но ложную информацию (это называют «галлюцинацией»), не знает событий после обучения и наследует перекосы своих данных. LLM — мощный инструмент, а не оракул; ответы стоит проверять.
Где здесь всё, что мы прошли
LLM — это вершина той же пирамиды, что мы строили весь курс: данные, признаки, нейроны, обучение на примерах, борьба с переобучением, метрики качества. Базовые принципы те же — изменился масштаб данных, модели и вычислений.
Итог
- Глубокое обучение — нейросети с многими слоями; они сами выделяют признаки из сырых данных.
- Его сила — картинки, звук и текст; цена — много данных и вычислений.
- LLM — огромная нейросеть, обученная предсказывать следующее слово; так она впитывает язык и знания.
- LLM не понимает мир буквально, может «галлюцинировать» — ответы нужно проверять.