Как беспилотник «видит» дорогу и решает, что делать

Беспилотник не «смотрит на дорогу» — он непрерывно строит трёхмерную модель мира из нескольких разных датчиков сразу.

Самое трудное для робота-водителя — не увидеть машину, а угадать, что она сделает через секунду.

Три разных глаза

У человека два глаза и одно зрение. У беспилотника несколько типов датчиков, и каждый видит мир по-своему — потому что у каждого свои сильные и слабые стороны.

Датчик	Что даёт	Где слаб
Камеры	Цвет, текст знаков, цвет светофора	Темнота, слепящее солнце, туман
Лидар	Точную 3D-форму и расстояние	Дождь и снег, дороговизна
Радар	Скорость объектов, работает в любую погоду	Грубая, «размытая» картинка

Лидар — самый эффектный: он стреляет вокруг тысячами лазерных импульсов и засекает, за сколько луч вернётся. Свет летит с известной скоростью, поэтому время возврата напрямую превращается в расстояние до препятствия. Из миллионов таких замеров складывается облако точек — трёхмерный скан всего вокруг с точностью до сантиметров, обновляемый по нескольку раз в секунду. Машина буквально щупает пространство светом и знает форму каждого объекта, а не просто его силуэт.

Слияние: собрать один мир из трёх

Поодиночке датчики ненадёжны. Камеру слепит закат, лидар захлёбывается в ливне, радар путается в мелочах. Поэтому их данные сливают (sensor fusion): система сопоставляет, что в одной точке пространства видят все сразу. Камера говорит «там что-то красное прямоугольное», лидар — «объект в 20 метрах размером с авто», радар — «и он движется на нас 50 км/ч». Сложив три мнения, получаем уверенный вывод: впереди тормозящая машина. Каждый страхует слабые места остальных.

Понять, что вокруг

На объединённой картине работают нейросети компьютерного зрения. Они решают сразу несколько задач: находят и классифицируют объекты (это пешеход, это велосипед, это знак), размечают, где проезжая часть, а где тротуар, и читают разметку и сигналы светофора. Каждому объекту присваивается тип и точное положение в трёхмерном мире вокруг машины.

Главная трудность — не зрение, а будущее

Увидеть пешехода у обочины мало. Он стоит и ждёт — или вот-вот шагнёт на дорогу? Беспилотник обязан предсказывать поведение всех вокруг на пару секунд вперёд: куда поедет машина в соседнем ряду, бросится ли ребёнок за мячом. Это сложнее распознавания, потому что речь о ещё не случившемся — приходится оценивать вероятности и закладываться на худшее.

Решение за миллисекунды

Картина мира собрана, прогнозы есть — пора действовать. Модуль планирования прокладывает безопасную траекторию: с какой скоростью ехать, перестроиться ли, когда тормозить. И всё это — десятки раз в секунду, ведь обстановка меняется ежемгновенно. Малейшее опоздание на скорости — это десятки метров вслепую.

Почему это всё ещё трудно

Беспилотники уверенно ездят там, где предсказуемо, и пасуют перед краевыми случаями — редкими ситуациями, которых почти не было в обучающих данных. Регулировщик машет руками вопреки светофору. Диван посреди трассы. Шутник в нелепом костюме на обочине. Человек включает здравый смысл, которого у машины нет: она видела миллионы кадров, но мир каждый день подкидывает то, чего в них не было. Водитель-человек, впервые увидев перевёрнутую фуру, мгновенно соображает, что объехать её надо по широкой дуге, — а модель такого примера могла и не встречать. Поэтому надёжный автопилот — это не про «увидеть», а про «не растеряться перед новым».

Из этого следует и честный взгляд на сроки. Проехать сто раз по знакомому маршруту в ясный день беспилотник уже умеет лучше многих людей. Но довести долю редких, опасных ситуаций, в которых он ошибается, до приемлемо малой — задача на годы кропотливой работы. Именно длинный хвост из тысяч непохожих краевых случаев, а не базовая езда, отделяет демонстрацию от по-настоящему массового автопилота.