Квантизация и размеры моделей: обзор
Почему одни модели «7B», а другие «405B», и что такое 4-битная квантизация. Этот обзорный урок объясняет размеры и сжатие моделей.
Квантизация — снижение точности чисел, которыми хранятся веса модели (например, с 16 бит до 4), чтобы уменьшить размер и ускорить работу почти без потери качества.
Что значит «7B», «70B»
Буква B — это billions, миллиарды параметров. «7B» — семь миллиардов весов, «70B» — семьдесят. В целом больше параметров — больше «ёмкость»: модель умнее, лучше рассуждает, знает больше. Но за это платят памятью, скоростью и деньгами. Грубое правило: чем больше модель, тем выше качество и тем дороже её запускать.
Сколько модель весит в памяти
По умолчанию каждый параметр хранится числом с плавающей точкой. Прикинем «вес» модели в зависимости от точности.
# Сколько памяти занимает модель в зависимости от точности хранения весов.
params_billion = 7 # 7 миллиардов параметров (модель "7B")
n_params = params_billion * 1_000_000_000
bits_per_param = {
"16 бит (fp16)": 16,
"8 бит (int8)": 8,
"4 бита (int4)": 4,
}
print(f"Модель: {params_billion}B параметров ({n_params:,} весов)")
print()
for name, bits in bits_per_param.items():
bytes_total = n_params * bits / 8
gb = bytes_total / (1024 ** 3)
print(f" {name:14} -> ~{gb:.1f} ГБ")
print()
print("Точность хранения напрямую решает, влезет ли модель в вашу память.")
print("4-битная квантизация ужимает 7B-модель примерно в 4 раза.")
Вывод:
Модель: 7B параметров (7,000,000,000 весов) 16 бит (fp16) -> ~13.0 ГБ 8 бит (int8) -> ~6.5 ГБ 4 бита (int4) -> ~3.3 ГБ Точность хранения напрямую решает, влезет ли модель в вашу память. 4-битная квантизация ужимает 7B-модель примерно в 4 раза.
Видно главное: точность хранения прямо определяет, влезет ли модель в вашу память. Одна и та же 7B-модель в 16 битах требует около 13 ГБ, а в 4 битах — около 3.3 ГБ (вчетверо меньше). Именно это и делает квантизация.
Идея квантизации
Веса обычно хранят в 16-битных числах, но такая точность избыточна — модель работает почти так же и при 8 или даже 4 битах на параметр. Квантизация переводит веса в формат меньшей точности. Эффект:
| Точность | Память | Качество |
| 16 бит (fp16) | базовая | эталонное |
| 8 бит (int8) | ~в 2 раза меньше | почти без потерь |
| 4 бита (int4) | ~в 4 раза меньше | небольшая, обычно приемлемая потеря |
Благодаря этому модели, которым раньше нужен был сервер, удаётся запускать на обычном ноутбуке или даже телефоне. Квантизация — ключевая технология «локальных» LLM.
Большая или маленькая модель?
Выбор размера — это компромисс под задачу:
- Большие модели: лучше в сложном рассуждении, знаниях, редких языках; дороже и медленнее.
- Маленькие модели: быстрые, дешёвые, запускаются локально и приватно; слабее в трудных задачах.
Часто маленькая модель, дообученная под конкретную узкую задачу, обыгрывает большую универсальную — и стоит в разы дешевле. «Самая большая» не значит «всегда лучшая для вашей задачи».
Другие способы уменьшить стоимость
Кроме квантизации есть дистилляция (маленькая модель учится повторять большую) и прунинг (удаление малозначимых весов). Все они служат одной цели — сделать модели меньше, быстрее и дешевле при минимальной потере качества, чтобы LLM работали не только в дата-центрах.
Итог
- «7B/70B» — число параметров в миллиардах; больше параметров — выше качество и стоимость.
- Память модели зависит от точности хранения весов; квантизация снижает её в 2–4 раза.
- Квантизация почти не теряет качество и позволяет запускать модели локально.
- Размер выбирают под задачу: маленькая дообученная модель часто выгоднее большой универсальной.