Нещодавно, OpenAI зробила анонс нового ШІ-асистента, який матиме на меті автоматизувати виконання онлайн-завдань. Він має назву Operator і працює на базі CUA (Computer-Using Agent). За концептом, цей помічник самостійно керуватиме кнопками, меню та текстовими полями браузера.

Відповідні функції дозволять людині не витрачати час на такі рутинні речі, як планування подорожей або складення списку продуктів. А от, щоб, наприклад увійти до особистого кабінету соцмережі, користувачу доведеться вводити дані вручну. Тим часом, можна трохи перепочити, використовуючи гральні автомати з бонусом за реєстрацію на перевірених українських казино.

Принцип дії віртуального помічника

Інноваційна модель CUA поєднує у собі технологію розпізнавання GPT-4o та підтримку навчання з підкріпленням. Тому Operator має можливість здійснювати прості завдання у межах вебсторінок, які раніше були притаманні тільки людині. При цьому, софт працюватиме наступним чином:

  • Спочатку, відбуватиметься аналіз знімків з дисплея для розуміння поточного стану системи;
  • Далі, AI проводить оцінювання власних дій;
  • І наостанок, агент починає виконувати вибрані команди на кшталт натиснення конкретних клавіш або набір тексту (все відбуватиметься з урахуванням імовірних змін у середовищі).

Цей AI-інструмент працюватиме без API, через окреме віконце у браузері з використанням віртуальних клавіш та миші. При цьому модель демонструє багатозадачність і гнучкість під час виконання простих опцій. Але, він ще потребуватиме вдосконалень, щоб швидко орієнтуватися, наприклад у редагуванні текстів високої складності.

Попередні результати тестування CUA, додаткові параметри Operator і його доступність

Підтверджено, що Operator має здатність адаптуватися до будь-яких змін середовища та виправляти помилки. Також, попередні тестування програми виявили гарні результати у декількох ситуаціях. Наприклад, в контексті виконання дій, які потребують всіх наявних ресурсів комп’ютера (OSWorld), агент здобув 38.1%. Але, у межах WebArena та WebVoyager успіх агента набагато вищий: 58.1% і 87%.

Також, асистента оснащено кількома безпековими опціями, які потребують підтвердження на здійснення конфіденційних дій. Тобто, користувач має надати доступ програмі для надсилання емейлів або здійснення онлайн-шопінгу. При цьому, існують і обмеження на перегляд ресурсів, пов’язаних тематикою 18+ або гемблінгом. Наразі, софт доступний для тестування у межах ChatGPT Pro за $200 у Сполучених Штатах.