Что такое компьютерное зрение и какие задачи оно решает

Компьютерное зрение — это про то, как заставить машину извлекать смысл из пикселей, а не просто хранить картинку.

Компьютерное зрение (Computer Vision, CV) — область, которая учит машины интерпретировать изображения и видео: понимать, что на них изображено, где находятся объекты и что с ними происходит.

Почему «видеть» так трудно

Человек узнаёт кошку за доли секунды и не задумывается, как это работает. Для компьютера картинка — это огромная таблица чисел: для фото 1000×1000 пикселей в цвете это три миллиона значений яркости. Сами по себе числа ничего не «значат»: одна и та же кошка при другом освещении, ракурсе или на другом фоне даёт совершенно другой набор чисел. Задача CV — построить мост от сырых пикселей к понятиям: «кошка», «дорожный знак», «опухоль на снимке».

Эту трудность называют семантическим разрывом (semantic gap): между низкоуровневыми числами и высокоуровневым смыслом лежит пропасть, которую и пытается перекрыть компьютерное зрение.

Четыре главные задачи

Почти всё в CV сводится к четырём типам задач. Важно их не путать — они отличаются тем, какой ответ модель выдаёт на выходе.

Задача	Вопрос	Что на выходе
Классификация	Что на картинке?	Один ярлык на всё изображение: «кошка»
Детекция	Что и где?	Рамки (bounding box) вокруг объектов + их классы
Сегментация	Какие пиксели чему принадлежат?	Маска: каждый пиксель помечен классом
Генерация	Можешь нарисовать?	Новое изображение по описанию или образцу

Сложность растёт сверху вниз. Классификация отвечает одним словом. Детекция уже должна локализовать объекты. Сегментация принимает решение по каждому пикселю. Генерация — самая молодая ветка: модель не разбирает картинку, а создаёт новую.

Где это применяется

Медицина: поиск патологий на рентгене, МРТ, гистологических снимках.
Автопилот: распознавание пешеходов, разметки, знаков, других машин.
Производство: контроль качества — поиск дефектов на деталях.
Безопасность и доступ: распознавание лиц, номеров автомобилей.
Розница и AR: поиск товара по фото, примерка одежды, фильтры в камерах.

Как устроен этот курс

Мы пойдём от фундамента к современным методам. Сначала разберёмся, что изображение — это просто числа, и научимся обрабатывать их классическими приёмами (яркость, фильтры, свёртка, границы) вручную. Потом увидим, почему ручные признаки уступили свёрточным нейросетям (CNN), разберём детекцию и сегментацию, а в финале дойдём до Vision Transformers и генеративных моделей. Ключевые идеи вы запустите прямо в браузере на маленьких матрицах-«картинках».

Итог

CV перекрывает семантический разрыв между пикселями и смыслом.
Четыре базовые задачи: классификация, детекция, сегментация, генерация.
Они отличаются формой ответа — от одного ярлыка до целой картинки.