
Исследователи из Microsoft Research Asia разработали новый готовый компонент для агентов искусственного интеллекта, использующих компьютер, под названием UI-Evol, который помогает повысить их точность и надёжность. Агенты искусственного интеллекта, использующие компьютер, — это модели искусственного интеллекта, имеющие доступ к операционной системе для автономного выполнения задач, но исследования показывают, что они не очень точны.
Эти агенты искусственного интеллекта часто находят информацию из интернета, чтобы понять, как ориентироваться в интерфейсах. Учитывая постоянное изменение пользовательских интерфейсов, можно предположить, что эти модели не способны преобразовать полученные из интернета знания в успешное взаимодействие с ними. Эта проблема называется разрывом между знаниями и действиями.
Исследование, представленное Microsoft, показало, что даже при 90% правильных инструкций агенты успешно выполняли свои функции лишь в 41% случаев. Кроме того, эти агенты непредсказуемы и каждый раз выполняют одну и ту же задачу по-разному. Очевидно, что это необходимо было решить.
Microsoft Research Asia UI-Evol — готовый к использованию компонент, который интегрируется в рабочий процесс агента и использует фактический пользовательский интерфейс для управления. Цель UI-Evol — постоянно обновлять информацию об интерфейсе, делая агентов более точными и надёжными.
UI-Evol работает по простому двухэтапному принципу. Сначала используется метод Retrace, который записывает точные шаги (щелчки, нажатия клавиш и действия), предпринимаемые агентом для успешного выполнения задачи. Затем используется метод Critique, который сравнивает записанные действия с внешними инструкциями. При обнаружении несоответствий система корректирует информацию, чтобы она отражала фактическую работу в программной среде, создавая надёжные и проверенные инструкции.
Для оценки эффективности UI-Evol был протестирован на Agent S2, одном из лучших агентов для компьютерного использования, с использованием бенчмарка OSWorld. Эксперименты с агентами, основанными на ведущих LLM, таких как GPT-4o и OpenAI-o3, показали два ключевых улучшения: более высокие показатели успешности и большую согласованность, что привело к снижению стандартного отклонения поведения, что сделало агентов более надежными.
Благодаря этой работе Microsoft могла бы значительно улучшить работу агентов в сфере автоматизации делопроизводства и виртуальных помощников.
Иван Ковалев
VIAСовсем немного времени потребовалось компании Samsung, чтобы, вслед за Apple, выпустить свои собственные умные часы
В своём блоге я обещал рассказать, как определиться с флешкой, служащей ключом для защиты приложения. Вначале
Проблемы с поиском интересующего вас человека могут возникнуть в той ситуации, если он никогда не был зарегистрирован в