Этика, ограничения и что дальше

Мощь компьютерного зрения создаёт реальные риски. Инженер обязан их понимать — техника не нейтральна.

Алгоритмическая предвзятость (bias) — систематические ошибки модели в сторону одних групп против других, обычно из-за несбалансированных данных обучения.

Предвзятость данных

Модель видит мир только через датасет. Если данные перекошены, перекосится и модель. Реальные провалы: системы распознавания лиц, обученные в основном на светлокожих лицах, заметно хуже работали на тёмнокожих — и ошибочно «опознавали» невиновных. Медицинская модель, обученная на снимках одной больницы, может провалиться на другом оборудовании. Корень проблемы — данные. Поэтому датасет нужно проверять на репрезентативность до обучения, а не удивляться ошибкам после.

Приватность

Распознавание лиц делает возможной слежку в масштабе: камеры могут идентифицировать людей в толпе без их согласия. Технология двойного назначения — она же разблокирует ваш телефон и помогает найти пропавшего человека. Поэтому многие страны и компании вводят ограничения на массовое распознавание лиц в публичных местах. Вопрос «можем ли мы это сделать» здесь должен идти после вопроса «должны ли».

Модели ошибаются обманчиво

  • Уверенность ≠ правота: сеть может выдать 99% уверенности и ошибиться. Высокая вероятность softmax не гарантирует корректность.
  • Состязательные атаки (adversarial): незаметные человеку изменения пикселей способны заставить сеть уверенно ошибиться — наклейка на знак «стоп», и автопилот видит ограничение скорости.
  • Сдвиг распределения: модель, отличная в лаборатории, деградирует на данных, не похожих на обучающие (другая камера, погода, освещение).
  • Дипфейки: генеративные модели создают убедительные фейковые фото и видео — вызов для доверия к изображениям.

Принципы ответственной разработки

РискЧто делать
Предвзятостьпроверять репрезентативность данных, мерить качество по группам
Ошибки в продедержать человека в контуре для важных решений
Приватностьминимизировать сбор лиц, спрашивать согласие, соблюдать закон
Непрозрачностьметоды интерпретации, тесты на состязательную устойчивость

Что мы прошли

Путь курса: изображение как матрица чисел → классическая обработка (точечные операции, свёртка, фильтры) → признаки и границы (Собель, ключевые точки, морфология) → почему победили CNN → свёрточные слои, пулинг, архитектуры → задачи распознавания (классификация, детекция, сегментация, лица, аугментация) → современное CV (transfer learning, ViT, генерация, инструменты). Ключевые идеи вы прогнали руками: свёртку, Собель, пулинг, морфологию, эмбеддинги.

Куда двигаться дальше

  • Практика: возьмите torchvision, дообучите ResNet на своём датасете (transfer learning).
  • Глубже в архитектуры: детекция (YOLO/Ultralytics), сегментация (U-Net, Segment Anything).
  • Мультимодальность: модели «картинка+текст» (CLIP) — мост к LLM.
  • Смежные курсы: глубокое обучение, нейросети, работа с трансформерами.

Итог

  • Предвзятость рождается в данных — проверяйте репрезентативность до обучения.
  • Распознавание лиц несёт риски приватности; «должны ли» важнее «можем ли».
  • Модели ошибаются обманчиво: уверенность не равна правоте, бывают состязательные атаки.
  • Ответственный CV: проверка по группам, человек в контуре, согласие, интерпретируемость.
Проверьте себя
1. Откуда чаще всего берётся предвзятость (bias) модели компьютерного зрения?
AИз выбора языка программирования
BИз несбалансированных, нерепрезентативных данных обучения
CИз слишком быстрого GPU
DИз перевода картинок в серый
2. Что такое состязательная (adversarial) атака на сеть зрения?
AСлишком яркое изображение
BНезаметные человеку изменения пикселей, заставляющие сеть уверенно ошибиться
CПоворот картинки на 90 градусов
DСжатие в JPEG
3. Почему высокая уверенность softmax (например, 99%) не гарантирует правильность?
ASoftmax всегда ошибается
BСеть может быть уверенно неправа, особенно на данных, не похожих на обучающие, или при состязательных атаках
C99% — это всегда ошибка
DУверенность не связана с предсказанием
Поддержать проект