ИИ-ассистенты и агенты

Чат-бот отвечает словами, а агент берёт и делает: ищет в интернете, считает на калькуляторе, нажимает кнопки — и сам решает, какой инструмент взять на каждом шаге.

ИИ-агент — это языковая модель, которой дали доступ к инструментам (поиск, калькулятор, код, кнопки на сайте) и право решать самой, какие шаги выполнить, чтобы довести задачу до результата, а не просто описать его словами.

Зачем тебе вообще про это знать

Представь, что ты попросил обычный чат-бот: «Узнай, сколько сейчас стоит билет на концерт твоей любимой группы, и посчитай, на сколько походов в кино это хватит». Обычная модель честно ответит что-то вроде: «Зайдите на сайт продажи билетов и сравните с ценой на кино». То есть она тебе расскажет, как это сделать. Но саму работу не сделает.

А теперь представь помощника, который вместо ответа словами реально открывает сайт, находит цену билета, лезет в расписание кинотеатра, берёт калькулятор, делит одно на другое — и присылает готовый ответ: «Билет стоит 4000 рублей, это примерно 13 походов в кино». Вот это и есть агент. Разница как между другом, который говорит «погугли» , и другом, который сам всё нагуглил и принёс ответ на блюдечке.

К концу урока ты будешь чётко понимать, чем ассистент отличается от агента, как агент пользуется инструментами, какие задачи ему можно доверить, а какие пока нет. И главное — научишься трезво смотреть на громкие обещания вроде «ИИ сам сделает за тебя всё», чтобы не разочароваться и не попасть впросак.

Ассистент и агент: в чём разница

Метафора: советчик и стажёр

Чтобы не путаться, держи простую картинку в голове.

Ассистент — это умный советчик. Ты задаёшь вопрос — он отвечает текстом. Он много знает, красиво формулирует, но руки у него связаны: он может только говорить. Обычный ChatGPT в режиме переписки — это ассистент. Ты спрашиваешь — он отвечает, и на этом круг замыкается.

Агент — это стажёр, которому дали не только голову, но и руки. Ты ставишь задачу — а он сам решает, что для неё нужно: сходить поискать, что-то посчитать, открыть нужную программу, проверить результат и, если не вышло, попробовать ещё раз. Он работает по кругу «подумал → сделал шаг → посмотрел, что получилось → подумал дальше», пока не доведёт дело до конца.

Промпт — запрос или инструкция, которую ты пишешь модели, чтобы получить нужный ответ.

Заметь: внутри и у ассистента, и у агента сидит одна и та же языковая модель — тот самый трансформер, который предсказывает следующий токен и который мы разбирали в прошлых разделах. Разница не в «мозге», а в том, дали ли ему руки (инструменты) и право действовать по шагам.

Языковая модель — модель, которая предсказывает следующее слово в тексте и так умеет генерировать осмысленные ответы.

Сравним по полочкам

Что сравниваем	Ассистент (советчик)	Агент (стажёр)
Что делает	Отвечает текстом на один запрос	Выполняет задачу из многих шагов
Доступ к инструментам	Нет, только слова	Есть: поиск, калькулятор, код, кнопки
Кто решает следующий шаг	Ты, человек	Сам агент, на каждом шаге
Может проверить себя	Нет	Да: смотрит на результат и исправляется
Пример	«Вот рецепт борща»	«Я нашёл рецепт, проверил наличие продуктов и составил список покупок»

Граница между ними не железобетонная: один и тот же ChatGPT может быть просто ассистентом в обычном чате, а может стать агентом, если ему включить инструменты и дать задачу посложнее. Важна не вывеска, а есть ли у модели возможность действовать, а не только говорить.

Как агент пользуется инструментами

Цикл «думаю — действую — смотрю»

Главный секрет агента — он работает не одним махом, а по кругу. Этот круг проще всего показать на нашем сквозном примере. Помнишь задачу «отличить кошку от собаки»? Раньше мы решали её одной моделью: подал картинку — получил ответ. Теперь представим её как задачу для агента, у которого есть инструменты.

Допустим, ты дал агенту папку с фотографиями и попросил: «Разложи эти фото по двум папкам — кошки и собаки — и скажи, сколько каких». Вот как агент рассуждает по шагам:

Думаю. «Мне нужно для каждого фото понять, кошка там или собака. У меня есть инструмент-классификатор — та самая модель из прошлых уроков. Начну с первого фото».
Действую. Агент вызывает инструмент-классификатор и передаёт ему первое фото.
Смотрю. Инструмент вернул: «кошка, уверенность 0.93». Агент кладёт фото в папку «кошки».
Думаю дальше. «Одно готово, осталось ещё 49. Беру следующее». И так по кругу, пока фото не кончатся.
Завершаю. Когда все фото разложены, агент считает итог и отвечает: «31 кошка, 19 собак, готово».

Видишь разницу? Сама модель-классификатор не изменилась. Но теперь над ней сидит агент, который сам решает, когда её вызвать, что делать с ответом и когда остановиться. Модель — это инструмент в руках агента, как калькулятор в руках человека.

Какие инструменты бывают

Инструмент для агента — это просто что-то, что он умеет «вызвать», передать туда данные и получить результат. Самые частые:

Инструмент	Зачем нужен	Пример задачи
Поиск в интернете	Узнать свежие факты, которых не было в обучении	«Какая погода завтра в моём городе?»
Калькулятор / выполнение кода	Точно посчитать, ведь сама модель в арифметике слаба	«Сколько будет 4173 × 289?»
Чтение файлов	Заглянуть в документ, таблицу, картинку	«Найди ошибку в этом коде»
Другая модель	Позвать узкого специалиста под конкретную задачу	Классификатор «кошка/собака» из нашего примера
Действия на сайте	Нажимать кнопки, заполнять формы	«Забронируй столик на двоих»

Главная мысль: сама языковая модель не умеет ни считать точно, ни знать сегодняшние новости, ни нажимать кнопки. Зато она хорошо умеет решать, какой инструмент позвать и что ему сказать. Агент — это как раз эта «решалка», обвязанная вокруг модели.

Разбираем на примерах

Пример 1: текстовый сюжет «Кошка пьёт ...»

Вернёмся ко второму нашему сквозному примеру — предсказанию следующего слова во фразе «Кошка пьёт ...». Обычная языковая модель просто продолжит: «...молоко». Это работа ассистента: один шаг, один ответ.

А теперь усложним задачу так, чтобы понадобился агент: «Проверь, действительно ли кошкам полезно молоко, и составь короткую памятку для хозяина». Тут одним предсказанием слова не обойтись. Смотри, как рассуждает агент:

Думаю. «Тут нужен свежий и точный факт, а не моя догадка. Из памяти я могу выдать миф. Лучше поищу».
Действую. Вызывает инструмент поиска: запрос «вредно ли кошкам коровье молоко».
Смотрю. Поиск вернул: у большинства взрослых кошек непереносимость лактозы, молоко вызывает расстройство.
Думаю дальше. «Отлично, факт получен. Теперь оформлю это в памятку из трёх пунктов».
Завершаю. Выдаёт готовую памятку, опираясь на найденный факт, а не на догадку.

Обрати внимание на ключевой момент: агент сам понял, что его собственного «предсказания слова» тут недостаточно, и решил позвать поиск. Это и есть главное умение агента — честно оценить, чего он не знает, и взять подходящий инструмент.

Пример 2: домашка по математике

Ты просишь: «Реши: на вечеринку придёт 28 человек, каждому нужно 3 куска пиццы, в одной пицце 8 кусков. Сколько пицц заказать?»

Обычный ассистент попробует посчитать «в уме» (то есть предсказать цифры как токены) — и иногда ошибается в арифметике, потому что модель не калькулятор. Агент действует умнее:

Думаю. «Это задача на счёт. Свою арифметику я не доверяю — возьму инструмент для вычислений».
Действую. Передаёт в калькулятор: 28 × 3 = 84 куска нужно; 84 / 8 = 10,5 пиццы.
Смотрю. Получилось 10,5. «Пиццу не закажешь дробную, надо округлить вверх».
Завершаю. «Нужно 84 куска, это 11 пицц (10,5 округляем вверх)».

Тут видно сразу два качества агента: он отдал точный счёт инструменту, а потом ещё и подумал над результатом — сообразил, что половину пиццы не заказывают. Ассистент-советчик мог бы остановиться на «10,5 пиццы» и оставить тебя в недоумении.

Пример 3: маленький агент в коде

Чтобы цикл «думаю — действую — смотрю» стал совсем нагляден, соберём игрушечного агента на чистом JavaScript. Никакого настоящего ИИ внутри не будет — мы лишь имитируем логику: у агента есть набор инструментов, и он по шагам выбирает нужный. Это концептуальная модель, но она точно повторяет идею.

// Игрушечные инструменты, которыми "пользуется" агент
const tools = {
  search: (q) => "взрослым кошкам молоко чаще вредно",
  calc: (a, b) => a * b
};

// Задачи, которые агент должен выполнить по шагам
const tasks = [
  { type: "search", text: "вредно ли кошкам молоко" },
  { type: "calc", text: "28 гостей по 3 куска", a: 28, b: 3 }
];

// Цикл агента: для каждой задачи решаем, какой инструмент взять
for (const task of tasks) {
  console.log("Думаю над задачей:", task.text);
  let result;
  if (task.type === "search") {
    result = tools.search(task.text);          // действую: ищу
  } else if (task.type === "calc") {
    result = tools.calc(task.a, task.b);        // действую: считаю
  }
  console.log("  -> взял инструмент:", task.type, "| результат:", result);
}

console.log("Все шаги выполнены.");

Вывод:

Думаю над задачей: вредно ли кошкам молоко
  -> взял инструмент: search | результат: взрослым кошкам молоко чаще вредно
Думаю над задачей: 28 гостей по 3 куска
  -> взял инструмент: calc | результат: 84
Все шаги выполнены.

Разберём, что тут происходит. Объект tools — это «руки» агента, набор доступных действий. Массив tasks — список шагов. Цикл for и есть тот самый круг «думаю — действую — смотрю»: на каждом обороте агент печатает, над чем думает, выбирает по типу задачи нужный инструмент (if по task.type), вызывает его и смотрит на результат. Настоящий агент отличается тем, что выбирает инструмент не по жёсткому if, а с помощью языковой модели — но суть цикла ровно такая же.

Частые ошибки и подводные камни

Вокруг агентов сейчас много хайпа, и из-за этого новички наступают на одни и те же грабли. Разберём главные.

Думать, что агент «понимает» задачу как человек. Внутри по-прежнему сидит языковая модель, которая предсказывает токены. Она не осознаёт смысл, а статистически подбирает следующий шаг. Поэтому на запутанной задаче агент может уверенно пойти не туда — точно так же, как ассистент уверенно выдаёт галлюцинацию.
Накопление ошибок по шагам. Чем больше шагов, тем выше шанс, что где-то агент ошибётся, а потом будет строить следующие шаги на кривом результате. Маленькая ошибка на втором шаге может развалить весь план к десятому. Поэтому длинные автономные цепочки пока ненадёжны.
Слепо доверять инструментам. Агент может найти в интернете чушь и честно на неё опереться. Инструмент дал факт — но факт может быть неверным. Хороший агент перепроверяет, плохой — нет, а понять, какой перед тобой, со стороны трудно.
Давать агенту опасные права. Одно дело — разрешить агенту искать в интернете. Совсем другое — дать ему отправлять сообщения, тратить деньги или удалять файлы. Если он ошибётся, последствия будут настоящими. Чем больше у агента «рук», тем осторожнее надо быть.
Ждать, что агент сам всё сделает без присмотра. Реклама обещает «поставь задачу и забудь». На практике агенты пока сильны на коротких, понятных задачах и слабы на длинных и размытых. Лучше всего они работают, когда человек проверяет ключевые шаги, а не уходит пить чай на весь день.

Галлюцинация — уверенно звучащий, но выдуманный или неверный ответ модели.

Мини-практика: спроектируй своего агента

Теория уляжется в голове, только если ты сам прикинешь, как собрать агента. Возьми задачу из своей жизни и распиши её по-агентски — на бумаге или в заметках, код не нужен.

Выбери задачу, которую хочется свалить на помощника. Например: «собрать плейлист на тренировку из 10 энергичных треков» или «найти, в каком магазине рядом дешевле всего любимый снек».
Выпиши, какие инструменты агенту понадобятся: поиск? калькулятор? доступ к музыкальному сервису? к картам?
Распиши цикл «думаю — действую — смотрю» хотя бы на 3–4 шага: что агент сделает первым, что вторым, как поймёт, что пора остановиться.
Отметь хотя бы одно место, где агент может ошибиться (нашёл устаревшую цену, посчитал не то), и придумай, как человек это проверил бы.

Продвинутый вариант: вернись к игрушечному коду из примера 3 и добавь третий инструмент — например, translate, который «переводит» текст (пусть просто возвращает строку с пометкой «переведено»). Добавь в массив tasks задачу с типом translate и допиши ветку if, чтобы агент умел её выполнять. Так ты на практике почувствуешь, что «дать агенту новый инструмент» — это буквально добавить ему новую руку.

Цель упражнения не в том, чтобы построить настоящего агента, а в том, чтобы привыкнуть мыслить шагами и инструментами. Именно так под капотом и устроены все ИИ-агенты, какими бы умными они ни казались снаружи.

Итоги

Ассистент только отвечает словами на один запрос, а агент выполняет задачу из многих шагов, пользуясь инструментами и сам решая, что делать дальше.
Внутри обоих сидит одна и та же языковая модель; разница в том, дали ли ей «руки» (инструменты) и право действовать по циклу «думаю — действую — смотрю».
Инструменты агента — это поиск, калькулятор, выполнение кода, чтение файлов, другие модели и действия на сайтах; модель сама не считает и не знает свежих фактов, но умеет решать, какой инструмент позвать.
На наших сквозных примерах это видно так: агент сам вызывает классификатор «кошка/собака» для каждого фото, а в текстовом сюжете честно идёт в поиск, поняв, что догадки про молоко мало.
Главные подводные камни — накопление ошибок по шагам, слепое доверие инструментам, опасные права и завышенные ожидания: агенты пока сильны на коротких задачах и требуют присмотра человека.

Раньше в этом разделе мы учились правильно ставить задачу модели — вспомни урок про ролевые и пошаговые промпты. Так вот: чёткий пошаговый промпт особенно важен именно для агентов, ведь они и работают по шагам. В следующих уроках раздела мы разберём, как ИИ генерирует не только текст, но и картинки, и как не попасться на сгенерированную подделку — дипфейк. А пока попробуй задание из мини-практики и спроектируй своего первого агента на бумаге.