Skip to main content

Как работает новый ИИ-агент Operator от OpenAI ? Люди все больше заменяются ИИ ?

5687f0609dd5fa34279d9afe76606440

Что Вы узнаете:

  1. Что такое Operator и как он работает
  2. Какие задачи может решать ИИ-агент Operator
  3. Чем отличается Operator от других ИИ-агентов
  4. Как использовать Operator для бизнеса и личных задач
  5. Какие перспективы открывает запуск Operator для пользователей

Перспективы развития операторов искусственного интеллекта

С развитием технологий искусственного интеллекта ИИ-операторы становятся все более мощными и многофункциональными. Они играют ключевую роль в автоматизации бизнеса, улучшении взаимодействия между человеком и машиной, а также в оптимизации рабочих процессов. Ожидается, что новые поколения таких агентов, как Operator от OpenAI, смогут не только выполнять команды пользователей, но и предлагать оптимальные решения на основе анализа данных, делая их незаменимыми инструментами в различных сферах.

Что такое Operator от OpenAI?

Компания OpenAI представила первого полноценного ИИ-агента под названием Operator. Этот интеллектуальный ассистент способен взаимодействовать с веб-страницами так, будто он сам является пользователем. В отличие от традиционных решений, которые полагаются на API, Operator использует визуальный анализ страниц, имитируя действия человека, такие как клики, перемещение курсора и ввод данных.

Посмотреть демонстрацию работы Operator можно по ссылке:

Видео на YouTube

https://www.youtube.com/watch?v=CSE77wAdDLg&t=436s

Интерфейс Operator схож с привычным ChatGPT: пользователь вводит запрос, указывая, какие действия необходимо выполнить на веб-сайтах, а агент выполняет их в режиме реального времени. Навигация ИИ-агента в интернете осуществляется через облачную виртуальную машину, где запущен браузер. Содержимое браузера транслируется в удобном веб-интерфейсе, знакомом пользователю.

Благодаря своей способности решать задачи, связанные с веб-страницами, без применения API, Operator открывает новые возможности для автоматизации процессов и взаимодействия с интернетом.

Интерфейс Operator: слева расположен чат, а браузер отображается справа
Интерфейс Operator: слева расположен чат, а браузер отображается справа

Особенности интерфейса Operator

Интерфейс Operator напоминает привычный ChatGPT: пользователь вводит запрос, указывая необходимые действия на веб-страницах, а агент выполняет их в режиме реального времени. Навигация осуществляется через облачную виртуальную машину, где запущен браузер. Содержимое браузера транслируется в веб-интерфейсе, позволяя пользователю контролировать процесс.

Преимущества Operator:

  • Автономное выполнение задач — агент самостоятельно находит нужные ресурсы.
  • Взаимодействие с веб-страницами без API — работа идет через визуальный анализ.
  • Гибкость управления — пользователь может в любой момент перехватить контроль.
  • Логирование всех действий — каждый шаг фиксируется в журнале активности.

Примеры запросов, которые выполняет Operator

Operator способен выполнять сложные, многошаговые задачи. Например:

  • Забронировать столик: «Забронируй столик на двоих в ресторане Beretta на сегодня в 19:00.»
  • Поиск билетов: «Найди четыре билета на матч Warriors в Сан-Франциско на эти выходные. Лучшие места до $500.»
  • Заказ еды: «Закажи 10 пицц среднего размера в Goat Hill Pizza. Обязательно включи одну с барбекю, остальные выбери разные.»
  • Аренда теннисного корта: «Проверь, свободен ли теннисный корт St. Mary в Сан-Франциско завтра утром. Желательно на один час.»
  • Поиск уборщиков: «Найди клининговую компанию для уборки дома на следующую неделю.»

Operator самостоятельно ищет подходящие страницы в поисковике, если пользователь не указал конкретный сайт.

Управление и контроль Operator

Во время работы Operator записывает все действия в лог, который отображается в чат-панели слева. Это позволяет пользователю просматривать выполненные шаги агента. Если необходимо внести изменения, пользователь может перехватить управление, например:

  • Добавить новый товар в корзину.
  • Изменить время бронирования.
  • Вручную уточнить данные для агента.

Если задача завершена, можно вернуться к предыдущим шагам в логах виртуальной машины и внести изменения.

Выбор предыдущего снимка, чтобы рассмотреть совершённое действие или изменить его
Выбор предыдущего снимка, чтобы рассмотреть совершённое действие или изменить его

У Operator высокая скорость реакции и ввода данных, однако взаимодействие всё‑таки происходит не мгновенно, с учётом того, что агент не применяет каких‑либо сайтовых API и не обращается к HTML-элементам, да и веб‑страницам порой требуется время, чтобы что‑то отобразить или обменяться данными с сервером сайта. Но в этом кроется и ключевое преимущество ИИ-агента: пользователь может не только продолжить заниматься другими делами, а даже открыть несколько одновременных Operator‑чатов, выполняющих в параллельном режиме множество рутинных задач.

Для некоторых требующих подтверждения действий, таких как покупка товаров, Operator приостанавливает выполнение и ожидает одобрения пользователя. Также он автоматически запрашивает помощь, если сталкивается с непредвиденными сложностями, например необходимостью ввода кода подтверждения с телефона или временной недоступностью сайта.

В системе предусмотрены пресеты — заготовленные сценарии для типичных действий, таких как покупка в конкретных магазинах. Правда, даже в этом случае пользователь всё равно может описать действия иначе — в текстовом запросе, не воспользовавшись настроенными быстрыми действиями.

Диалог после приостановки, где пользователь описал внесённые изменения: в товарную корзину был добавлен ещё один товар
Диалог после приостановки, где пользователь описал внесённые изменения: в товарную корзину был добавлен ещё один товар

Operator работает на модели CUA — Compute‑Using Agent, построенной на основе ChatGPT-4o и обученной сёрфить в интернете совсем так, как это делает человек. Система CUA не анализирует исходный код страниц, а полагается лишь на считывание графической информации. Кстати, ChatGPT-4o тоже отлично с этим справляется, распознавая скриншоты программ, добавленные пользователем в чат, и давая подсказки и решения в различных ситуациях.

Взаимодействие с Operator, при котором пользователь может перехватывать управление работы нейросети, демонстрирует подобие методики human‑in‑the‑loop, применяемой в обучении нейросетей.

Сейчас Operator доступен только в США. Пользователи подписки Pro уже могут воспользоваться им, а в ближайшие месяцы доступ получат и подписчики Plus. OpenAI также планирует открыть API модели, что даст разработчикам возможность интегрировать агента в свои проекты.

В ближайшие месяцы компания планирует запуск новых агентов. Пока неясно, будут ли они работать только в облаке или появятся версии для операционных систем.

Заключение

ИИ-агент Operator от OpenAI — это революционный инструмент, который значительно упрощает автоматизацию работы с веб-страницами. Благодаря гибкому управлению, отсутствию необходимости в API и способности работать в режиме реального времени, этот агент открывает новые горизонты для бизнеса, автоматизации процессов и повышения продуктивности. В ближайшем будущем такие технологии станут неотъемлемой частью цифрового мира.

LLM

Почему iPhone через CarPlay не подключается к автомобилю и как это исправить

Как на iPhone по отдельности настроить громкость сообщений, звонков и мультимедиа

Как защитить веб-версию WhatsApp паролем для дополнительной безопасности

7 простых способов расшифровать видео c YouTube в текстовый формат

Как исправить проблему с кнопкой Camera Control, которая случайно открывает камеру на iPhone 16

Как в iPhone 16 и iPhone 16 Pro включить камеру на 48 Мп для максимального разрешения

60+ суперспособностей вашего iPhone, о которых вы могли не знать

Как использовать современные LLM для написания кода и создания эффективных решений

Простое руководство по работе с нейросетью на примерах

5 полезных образовательных сервисов на основе нейросетей