Что такое компьютерное зрение и какие задачи оно решает

Компьютерное зрение — это про то, как заставить машину извлекать смысл из пикселей, а не просто хранить картинку.

Компьютерное зрение (Computer Vision, CV) — область, которая учит машины интерпретировать изображения и видео: понимать, что на них изображено, где находятся объекты и что с ними происходит.

Почему «видеть» так трудно

Человек узнаёт кошку за доли секунды и не задумывается, как это работает. Для компьютера картинка — это огромная таблица чисел: для фото 1000×1000 пикселей в цвете это три миллиона значений яркости. Сами по себе числа ничего не «значат»: одна и та же кошка при другом освещении, ракурсе или на другом фоне даёт совершенно другой набор чисел. Задача CV — построить мост от сырых пикселей к понятиям: «кошка», «дорожный знак», «опухоль на снимке».

Эту трудность называют семантическим разрывом (semantic gap): между низкоуровневыми числами и высокоуровневым смыслом лежит пропасть, которую и пытается перекрыть компьютерное зрение.

Четыре главные задачи

Почти всё в CV сводится к четырём типам задач. Важно их не путать — они отличаются тем, какой ответ модель выдаёт на выходе.

ЗадачаВопросЧто на выходе
КлассификацияЧто на картинке?Один ярлык на всё изображение: «кошка»
ДетекцияЧто и где?Рамки (bounding box) вокруг объектов + их классы
СегментацияКакие пиксели чему принадлежат?Маска: каждый пиксель помечен классом
ГенерацияМожешь нарисовать?Новое изображение по описанию или образцу

Сложность растёт сверху вниз. Классификация отвечает одним словом. Детекция уже должна локализовать объекты. Сегментация принимает решение по каждому пикселю. Генерация — самая молодая ветка: модель не разбирает картинку, а создаёт новую.

Где это применяется

  • Медицина: поиск патологий на рентгене, МРТ, гистологических снимках.
  • Автопилот: распознавание пешеходов, разметки, знаков, других машин.
  • Производство: контроль качества — поиск дефектов на деталях.
  • Безопасность и доступ: распознавание лиц, номеров автомобилей.
  • Розница и AR: поиск товара по фото, примерка одежды, фильтры в камерах.

Как устроен этот курс

Мы пойдём от фундамента к современным методам. Сначала разберёмся, что изображение — это просто числа, и научимся обрабатывать их классическими приёмами (яркость, фильтры, свёртка, границы) вручную. Потом увидим, почему ручные признаки уступили свёрточным нейросетям (CNN), разберём детекцию и сегментацию, а в финале дойдём до Vision Transformers и генеративных моделей. Ключевые идеи вы запустите прямо в браузере на маленьких матрицах-«картинках».

Итог

  • CV перекрывает семантический разрыв между пикселями и смыслом.
  • Четыре базовые задачи: классификация, детекция, сегментация, генерация.
  • Они отличаются формой ответа — от одного ярлыка до целой картинки.
Проверьте себя
1. Чем детекция объектов отличается от классификации изображения?
AДетекция работает только с чёрно-белыми картинками
BКлассификация выдаёт один ярлык на всё изображение, а детекция находит объекты и их положение (рамки)
CДетекция всегда точнее классификации
DМежду ними нет разницы
2. Что такое семантический разрыв (semantic gap) в компьютерном зрении?
AРазница в разрешении между двумя картинками
BПропасть между сырыми числами-пикселями и высокоуровневым смыслом изображения
CЗадержка между съёмкой и обработкой
DРазличие форматов JPEG и PNG
3. Какая задача требует решения по КАЖДОМУ пикселю изображения?
AКлассификация
BДетекция
CСегментация
DГенерация по описанию
Поддержать проект