Что такое компьютерное зрение и какие задачи оно решает
Компьютерное зрение — это про то, как заставить машину извлекать смысл из пикселей, а не просто хранить картинку.
Компьютерное зрение (Computer Vision, CV) — область, которая учит машины интерпретировать изображения и видео: понимать, что на них изображено, где находятся объекты и что с ними происходит.
Почему «видеть» так трудно
Человек узнаёт кошку за доли секунды и не задумывается, как это работает. Для компьютера картинка — это огромная таблица чисел: для фото 1000×1000 пикселей в цвете это три миллиона значений яркости. Сами по себе числа ничего не «значат»: одна и та же кошка при другом освещении, ракурсе или на другом фоне даёт совершенно другой набор чисел. Задача CV — построить мост от сырых пикселей к понятиям: «кошка», «дорожный знак», «опухоль на снимке».
Эту трудность называют семантическим разрывом (semantic gap): между низкоуровневыми числами и высокоуровневым смыслом лежит пропасть, которую и пытается перекрыть компьютерное зрение.
Четыре главные задачи
Почти всё в CV сводится к четырём типам задач. Важно их не путать — они отличаются тем, какой ответ модель выдаёт на выходе.
| Задача | Вопрос | Что на выходе |
| Классификация | Что на картинке? | Один ярлык на всё изображение: «кошка» |
| Детекция | Что и где? | Рамки (bounding box) вокруг объектов + их классы |
| Сегментация | Какие пиксели чему принадлежат? | Маска: каждый пиксель помечен классом |
| Генерация | Можешь нарисовать? | Новое изображение по описанию или образцу |
Сложность растёт сверху вниз. Классификация отвечает одним словом. Детекция уже должна локализовать объекты. Сегментация принимает решение по каждому пикселю. Генерация — самая молодая ветка: модель не разбирает картинку, а создаёт новую.
Где это применяется
- Медицина: поиск патологий на рентгене, МРТ, гистологических снимках.
- Автопилот: распознавание пешеходов, разметки, знаков, других машин.
- Производство: контроль качества — поиск дефектов на деталях.
- Безопасность и доступ: распознавание лиц, номеров автомобилей.
- Розница и AR: поиск товара по фото, примерка одежды, фильтры в камерах.
Как устроен этот курс
Мы пойдём от фундамента к современным методам. Сначала разберёмся, что изображение — это просто числа, и научимся обрабатывать их классическими приёмами (яркость, фильтры, свёртка, границы) вручную. Потом увидим, почему ручные признаки уступили свёрточным нейросетям (CNN), разберём детекцию и сегментацию, а в финале дойдём до Vision Transformers и генеративных моделей. Ключевые идеи вы запустите прямо в браузере на маленьких матрицах-«картинках».
Итог
- CV перекрывает семантический разрыв между пикселями и смыслом.
- Четыре базовые задачи: классификация, детекция, сегментация, генерация.
- Они отличаются формой ответа — от одного ярлыка до целой картинки.