Этика, лицензии и локальный запуск против API

Завершаем курс важнейшей темой: как использовать модели ответственно и где их запускать.

Лицензия модели — юридические условия, определяющие, как именно вам разрешено использовать модель: в исследованиях, коммерции, с ограничениями или без.

Лицензии: не всё, что открыто, можно всё

«Open-source» не значит «делай что хочешь». У моделей разные лицензии:

ЛицензияЧто разрешает
Apache 2.0 / MITпочти любое использование, включая коммерцию
Llama / Gemma (custom)коммерция с ограничениями, есть условия
CC-BY-NCтолько некоммерческое использование
research-onlyтолько исследования, не продакшен

Перед использованием модели в продукте всегда читайте лицензию в карточке. Нарушение лицензии — юридический риск для всей компании.

Предвзятость и ограничения

Модель учится на данных из интернета и наследует их предвзятость: стереотипы, перекосы по полу, расе, языку. Она может уверенно выдавать неверные факты. Поэтому в ответственных областях (медицина, право, найм) выход модели обязательно проверяет человек. Хорошая карточка модели честно описывает её ограничения — читайте раздел «Limitations and bias».

Ответственное использование

  • Не выдавайте сгенерированный контент за достоверный без проверки.
  • Уважайте приватность: не подавайте в публичные API чужие персональные данные.
  • Помечайте сгенерированный контент как сгенерированный, где это важно.
  • Помните про авторские права на данные обучения и генерации.

Локальный запуск против API

Модель можно запускать двумя способами, и выбор — это компромисс:

КритерийЛокальноЧерез API
Приватность данныхвысокая (данные не уходят)данные идут к провайдеру
Стоимость стартанужно своё железо/GPUплатишь за вызовы
Масштабограничен вашим железоммасштабируется провайдером
Контроль версииполныйзависит от провайдера

Как работает под капотом

При локальном запуске вы скачиваете веса и считаете всё на своём оборудовании — данные никуда не уходят, что критично для чувствительной информации и требований вроде 152-ФЗ. Через API (например, Inference API Hugging Face или сторонние провайдеры) вы отправляете запрос на чужой сервер и получаете ответ — быстро стартовать, но данные покидают ваш контур и вы платите за каждый вызов. Часто комбинируют: прототип на API, продакшен с чувствительными данными — локально.

Частые ошибки

  • Использовать research-only модель в коммерции. Это прямое нарушение лицензии.
  • Доверять выводу модели вслепую. Модель может ошибаться и быть предвзятой; нужен человеческий контроль.
  • Слать персональные данные в публичный API. Это риск утечки и нарушения закона о персональных данных.

Итог

  • Лицензия определяет, можно ли использовать модель коммерчески — читайте её всегда.
  • Модели наследуют предвзятость данных и могут ошибаться; нужен человеческий контроль.
  • Локальный запуск даёт приватность и контроль, API — быстрый старт и масштаб.
  • Ответственное использование — часть профессиональной работы с ML.
Проверьте себя
1. Что означает, что у модели лицензия CC-BY-NC?
AМожно использовать как угодно
BРазрешено только некоммерческое использование
CМодель платная
DМодель нельзя скачивать
2. Почему выход модели в ответственных областях должен проверять человек?
AМодель работает медленно
BМодель может быть предвзятой и уверенно выдавать неверные факты
CТак требует лицензия Apache
DЧтобы ускорить инференс
3. В чём ключевое преимущество локального запуска перед API?
AВсегда дешевле
BДанные не покидают ваш контур — выше приватность
CНе нужен интернет никогда
DМодель работает точнее