Глубокое обучение и большие языковые модели

Мост от основ ML к тому, о чём говорят все: глубокое обучение и большие языковые модели.

Глубокое обучение (deep learning) — машинное обучение на нейросетях с большим числом слоёв.

Что значит «глубокое»

«Глубина» — это много скрытых слоёв нейронов. В прошлом уроке мы видели сеть из нескольких слоёв; в глубоких сетях их десятки и сотни. Каждый слой выделяет всё более сложные закономерности. На изображениях, например, первые слои находят края и пятна, средние — части объектов (глаз, колесо), последние — объекты целиком (лицо, машина). Никто не программирует эти признаки вручную — сеть находит их сама в процессе обучения.

Чем глубокое обучение отличается от классического ML

Классический MLГлубокое обучение
ПризнакиЧасто придумывает человекСеть выделяет сама из сырых данных
ДанныеРаботает и на небольшихНужно много данных
ВычисленияСкромныеТребует мощных GPU
Сильная сторонаТаблицы, понятные признакиКартинки, звук, текст

Главный прорыв глубокого обучения — оно само находит полезные признаки в сырых данных (пикселях, звуке, тексте), где раньше человек мучительно конструировал их руками. Именно это дало скачок в распознавании речи, компьютерном зрении и переводе.

Что такое большие языковые модели (LLM)

Большая языковая модель (LLM) — очень крупная нейросеть, обученная на огромных объёмах текста предсказывать следующее слово.

В основе LLM лежит, казалось бы, скромная задача: по началу фразы предсказать, какое слово идёт дальше. Но когда такую модель с миллиардами параметров обучают на колоссальном корпусе текстов, происходит удивительное: чтобы хорошо угадывать следующее слово, ей приходится «впитать» грамматику, факты о мире, стиль и логику рассуждений. В итоге она умеет писать тексты, отвечать на вопросы, переводить и программировать — хотя училась всего лишь продолжать текст.

Технологический фундамент LLM — архитектура трансформер (transformer): она позволила эффективно учитывать связи между далёкими словами в тексте и обучаться на огромных данных параллельно. Это и сделало возможным сегодняшний скачок.

Почему это прорыв — и где границы

  • Универсальность. Одна модель решает множество задач без отдельного обучения под каждую — достаточно сформулировать запрос текстом.
  • Доступность. Пользоваться можно на естественном языке, без навыков программирования.

Но важно трезво понимать ограничения. LLM не «понимает» мир как человек — она оперирует статистикой языка. Поэтому она может уверенно выдать правдоподобную, но ложную информацию (это называют «галлюцинацией»), не знает событий после обучения и наследует перекосы своих данных. LLM — мощный инструмент, а не оракул; ответы стоит проверять.

Где здесь всё, что мы прошли

LLM — это вершина той же пирамиды, что мы строили весь курс: данные, признаки, нейроны, обучение на примерах, борьба с переобучением, метрики качества. Базовые принципы те же — изменился масштаб данных, модели и вычислений.

Итог

  • Глубокое обучение — нейросети с многими слоями; они сами выделяют признаки из сырых данных.
  • Его сила — картинки, звук и текст; цена — много данных и вычислений.
  • LLM — огромная нейросеть, обученная предсказывать следующее слово; так она впитывает язык и знания.
  • LLM не понимает мир буквально, может «галлюцинировать» — ответы нужно проверять.
Проверьте себя
1. Что делает обучение «глубоким» (deep learning)?
AИспользование очень больших чисел
BНейросеть с большим числом слоёв, где каждый слой выделяет всё более сложные признаки
CОбучение строго без учителя
DОтказ от данных при обучении
2. На какой задаче в своей основе обучается большая языковая модель (LLM)?
AКластеризация клиентов
BПредсказание следующего слова по предыдущему тексту
CПонижение размерности изображений
DСортировка чисел
3. Что важно помнить про ограничения LLM?
AОна всегда выдаёт абсолютно точные факты
BОна оперирует статистикой языка и может уверенно выдавать правдоподобную, но ложную информацию (галлюцинации)
CОна понимает мир точно как человек
DОна не нуждается в данных для обучения
Поддержать проект