Квантизация и размеры моделей: обзор

Почему одни модели «7B», а другие «405B», и что такое 4-битная квантизация. Этот обзорный урок объясняет размеры и сжатие моделей.

Квантизация — снижение точности чисел, которыми хранятся веса модели (например, с 16 бит до 4), чтобы уменьшить размер и ускорить работу почти без потери качества.

Что значит «7B», «70B»

Буква B — это billions, миллиарды параметров. «7B» — семь миллиардов весов, «70B» — семьдесят. В целом больше параметров — больше «ёмкость»: модель умнее, лучше рассуждает, знает больше. Но за это платят памятью, скоростью и деньгами. Грубое правило: чем больше модель, тем выше качество и тем дороже её запускать.

Сколько модель весит в памяти

По умолчанию каждый параметр хранится числом с плавающей точкой. Прикинем «вес» модели в зависимости от точности.

# Сколько памяти занимает модель в зависимости от точности хранения весов.
params_billion = 7          # 7 миллиардов параметров (модель "7B")
n_params = params_billion * 1_000_000_000

bits_per_param = {
    "16 бит (fp16)": 16,
    "8 бит (int8)": 8,
    "4 бита (int4)": 4,
}

print(f"Модель: {params_billion}B параметров ({n_params:,} весов)")
print()
for name, bits in bits_per_param.items():
    bytes_total = n_params * bits / 8
    gb = bytes_total / (1024 ** 3)
    print(f"  {name:14} -> ~{gb:.1f} ГБ")
print()
print("Точность хранения напрямую решает, влезет ли модель в вашу память.")
print("4-битная квантизация ужимает 7B-модель примерно в 4 раза.")

Вывод:

Модель: 7B параметров (7,000,000,000 весов)

  16 бит (fp16)  -> ~13.0 ГБ
  8 бит (int8)   -> ~6.5 ГБ
  4 бита (int4)  -> ~3.3 ГБ

Точность хранения напрямую решает, влезет ли модель в вашу память.
4-битная квантизация ужимает 7B-модель примерно в 4 раза.

Видно главное: точность хранения прямо определяет, влезет ли модель в вашу память. Одна и та же 7B-модель в 16 битах требует около 13 ГБ, а в 4 битах — около 3.3 ГБ (вчетверо меньше). Именно это и делает квантизация.

Идея квантизации

Веса обычно хранят в 16-битных числах, но такая точность избыточна — модель работает почти так же и при 8 или даже 4 битах на параметр. Квантизация переводит веса в формат меньшей точности. Эффект:

Точность	Память	Качество
16 бит (fp16)	базовая	эталонное
8 бит (int8)	~в 2 раза меньше	почти без потерь
4 бита (int4)	~в 4 раза меньше	небольшая, обычно приемлемая потеря

Благодаря этому модели, которым раньше нужен был сервер, удаётся запускать на обычном ноутбуке или даже телефоне. Квантизация — ключевая технология «локальных» LLM.

Большая или маленькая модель?

Выбор размера — это компромисс под задачу:

Большие модели: лучше в сложном рассуждении, знаниях, редких языках; дороже и медленнее.
Маленькие модели: быстрые, дешёвые, запускаются локально и приватно; слабее в трудных задачах.

Часто маленькая модель, дообученная под конкретную узкую задачу, обыгрывает большую универсальную — и стоит в разы дешевле. «Самая большая» не значит «всегда лучшая для вашей задачи».

Другие способы уменьшить стоимость

Кроме квантизации есть дистилляция (маленькая модель учится повторять большую) и прунинг (удаление малозначимых весов). Все они служат одной цели — сделать модели меньше, быстрее и дешевле при минимальной потере качества, чтобы LLM работали не только в дата-центрах.

Итог

«7B/70B» — число параметров в миллиардах; больше параметров — выше качество и стоимость.
Память модели зависит от точности хранения весов; квантизация снижает её в 2–4 раза.
Квантизация почти не теряет качество и позволяет запускать модели локально.
Размер выбирают под задачу: маленькая дообученная модель часто выгоднее большой универсальной.