Этика, ограничения и что дальше
Мощь компьютерного зрения создаёт реальные риски. Инженер обязан их понимать — техника не нейтральна.
Алгоритмическая предвзятость (bias) — систематические ошибки модели в сторону одних групп против других, обычно из-за несбалансированных данных обучения.
Предвзятость данных
Модель видит мир только через датасет. Если данные перекошены, перекосится и модель. Реальные провалы: системы распознавания лиц, обученные в основном на светлокожих лицах, заметно хуже работали на тёмнокожих — и ошибочно «опознавали» невиновных. Медицинская модель, обученная на снимках одной больницы, может провалиться на другом оборудовании. Корень проблемы — данные. Поэтому датасет нужно проверять на репрезентативность до обучения, а не удивляться ошибкам после.
Приватность
Распознавание лиц делает возможной слежку в масштабе: камеры могут идентифицировать людей в толпе без их согласия. Технология двойного назначения — она же разблокирует ваш телефон и помогает найти пропавшего человека. Поэтому многие страны и компании вводят ограничения на массовое распознавание лиц в публичных местах. Вопрос «можем ли мы это сделать» здесь должен идти после вопроса «должны ли».
Модели ошибаются обманчиво
- Уверенность ≠ правота: сеть может выдать 99% уверенности и ошибиться. Высокая вероятность softmax не гарантирует корректность.
- Состязательные атаки (adversarial): незаметные человеку изменения пикселей способны заставить сеть уверенно ошибиться — наклейка на знак «стоп», и автопилот видит ограничение скорости.
- Сдвиг распределения: модель, отличная в лаборатории, деградирует на данных, не похожих на обучающие (другая камера, погода, освещение).
- Дипфейки: генеративные модели создают убедительные фейковые фото и видео — вызов для доверия к изображениям.
Принципы ответственной разработки
| Риск | Что делать |
| Предвзятость | проверять репрезентативность данных, мерить качество по группам |
| Ошибки в проде | держать человека в контуре для важных решений |
| Приватность | минимизировать сбор лиц, спрашивать согласие, соблюдать закон |
| Непрозрачность | методы интерпретации, тесты на состязательную устойчивость |
Что мы прошли
Путь курса: изображение как матрица чисел → классическая обработка (точечные операции, свёртка, фильтры) → признаки и границы (Собель, ключевые точки, морфология) → почему победили CNN → свёрточные слои, пулинг, архитектуры → задачи распознавания (классификация, детекция, сегментация, лица, аугментация) → современное CV (transfer learning, ViT, генерация, инструменты). Ключевые идеи вы прогнали руками: свёртку, Собель, пулинг, морфологию, эмбеддинги.
Куда двигаться дальше
- Практика: возьмите torchvision, дообучите ResNet на своём датасете (transfer learning).
- Глубже в архитектуры: детекция (YOLO/Ultralytics), сегментация (U-Net, Segment Anything).
- Мультимодальность: модели «картинка+текст» (CLIP) — мост к LLM.
- Смежные курсы: глубокое обучение, нейросети, работа с трансформерами.
Итог
- Предвзятость рождается в данных — проверяйте репрезентативность до обучения.
- Распознавание лиц несёт риски приватности; «должны ли» важнее «можем ли».
- Модели ошибаются обманчиво: уверенность не равна правоте, бывают состязательные атаки.
- Ответственный CV: проверка по группам, человек в контуре, согласие, интерпретируемость.