Новый компонет от Microsoft позволит значительно повысить надёжность агентов искусственного интеллекта

от: 17-11-2025 17:54 | раздел: Новости

Исследователи из Microsoft Research Asia разработали новый готовый компонент для агентов искусственного интеллекта, использующих компьютер, под названием UI-Evol, который помогает повысить их точность и надёжность. Агенты искусственного интеллекта, использующие компьютер, — это модели искусственного интеллекта, имеющие доступ к операционной системе для автономного выполнения задач, но исследования показывают, что они не очень точны.

Эти агенты искусственного интеллекта часто находят информацию из интернета, чтобы понять, как ориентироваться в интерфейсах. Учитывая постоянное изменение пользовательских интерфейсов, можно предположить, что эти модели не способны преобразовать полученные из интернета знания в успешное взаимодействие с ними. Эта проблема называется разрывом между знаниями и действиями.

Исследование, представленное Microsoft, показало, что даже при 90% правильных инструкций агенты успешно выполняли свои функции лишь в 41% случаев. Кроме того, эти агенты непредсказуемы и каждый раз выполняют одну и ту же задачу по-разному. Очевидно, что это необходимо было решить.

Microsoft Research Asia UI-Evol — готовый к использованию компонент, который интегрируется в рабочий процесс агента и использует фактический пользовательский интерфейс для управления. Цель UI-Evol — постоянно обновлять информацию об интерфейсе, делая агентов более точными и надёжными.

UI-Evol работает по простому двухэтапному принципу. Сначала используется метод Retrace, который записывает точные шаги (щелчки, нажатия клавиш и действия), предпринимаемые агентом для успешного выполнения задачи. Затем используется метод Critique, который сравнивает записанные действия с внешними инструкциями. При обнаружении несоответствий система корректирует информацию, чтобы она отражала фактическую работу в программной среде, создавая надёжные и проверенные инструкции.

Для оценки эффективности UI-Evol был протестирован на Agent S2, одном из лучших агентов для компьютерного использования, с использованием бенчмарка OSWorld. Эксперименты с агентами, основанными на ведущих LLM, таких как GPT-4o и OpenAI-o3, показали два ключевых улучшения: более высокие показатели успешности и большую согласованность, что привело к снижению стандартного отклонения поведения, что сделало агентов более надежными.

Благодаря этой работе Microsoft могла бы значительно улучшить работу агентов в сфере автоматизации делопроизводства и виртуальных помощников.

Иван Ковалев

VIA

Подписывайтесь и читайте новости от ITквариат раньше остальных в нашем Telegram-канале !

Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

И еще об интересном...

Что такое CRM база данных: объяснение и применение — взгляд Евгения Касьяненко

Почему современные компьютерные игры используют так много видеопамяти?

Моя история в Twitter, от начала до конца…

Как Microsoft создает Xbox One X - самую мощную игровую консоль в мире (+видео)

Почему я вернул Macbook Pro через день использования и что я понял о будущем Apple

Xbox One vs PS4: Самое детальное сравнение двух платформ

LG G6: большой тест - обзор

А что вы думаете? Напишите в комментариях!

Кликните на изображение чтобы обновить код, если он неразборчив

В комментариях запрещено использовать ненормативную лексику, оскорблять других пользователей сайта, запрещены активные ссылки на сторонние сайты и реклама в комментариях. Уважаемые читатели! Просим вас, оставляя комментарии, уважать друг друга и не злоупотреблять свободой слова. Пользователи, которые нарушают эти правила грубо или систематически, будут заблокированы.

Полная версия правил

Самое популярное

Модификация батареи iPhone 16 Pro Max увеличила емкость батареи флагмана предыдущего поколения Apple почти на 10%

OpenAI сотрудничает с Disney: пользователи Sora скоро смогут создавать клипы по мотивам Marvel и Star Wars

ASRock представила видеокарту RX 9070 XT Taichi White с ЖК-дисплеем и 384-битной шиной памяти

Геосинтетика в водоотведении: важность правильной защиты

Samsung пополнит запасы Galaxy Z TriFold через пару дней из-за тотального солдауда на прошлой неделе

Проверьте скорость вашего интернета!

Что бывало...

Hard / Гаджеты и аксессуары

30 ноябрь 2016
Apple Watch Series 2 или Samsung Gear S3. Кто «умнее»?

Совсем немного времени потребовалось компании Samsung, чтобы, вслед за Apple, выпустить свои собственные умные часы

Soft / Программирование / Блог

05 февраль 2017
Как запрограммировать флешку - "ключ" для защиты приложения

В своём блоге я обещал рассказать, как определиться с флешкой, служащей ключом для защиты приложения. Вначале

О разном...

17 май 2023
Как можно найти человека, зная только имя и фамилию?

Проблемы с поиском интересующего вас человека могут возникнуть в той ситуации, если он никогда не был зарегистрирован в