
Исследователи из Microsoft Research Asia разработали новый готовый компонент для агентов искусственного интеллекта, использующих компьютер, под названием UI-Evol, который помогает повысить их точность и надёжность. Агенты искусственного интеллекта, использующие компьютер, — это модели искусственного интеллекта, имеющие доступ к операционной системе для автономного выполнения задач, но исследования показывают, что они не очень точны.
Эти агенты искусственного интеллекта часто находят информацию из интернета, чтобы понять, как ориентироваться в интерфейсах. Учитывая постоянное изменение пользовательских интерфейсов, можно предположить, что эти модели не способны преобразовать полученные из интернета знания в успешное взаимодействие с ними. Эта проблема называется разрывом между знаниями и действиями.
Исследование, представленное Microsoft, показало, что даже при 90% правильных инструкций агенты успешно выполняли свои функции лишь в 41% случаев. Кроме того, эти агенты непредсказуемы и каждый раз выполняют одну и ту же задачу по-разному. Очевидно, что это необходимо было решить.
Microsoft Research Asia UI-Evol — готовый к использованию компонент, который интегрируется в рабочий процесс агента и использует фактический пользовательский интерфейс для управления. Цель UI-Evol — постоянно обновлять информацию об интерфейсе, делая агентов более точными и надёжными.
UI-Evol работает по простому двухэтапному принципу. Сначала используется метод Retrace, который записывает точные шаги (щелчки, нажатия клавиш и действия), предпринимаемые агентом для успешного выполнения задачи. Затем используется метод Critique, который сравнивает записанные действия с внешними инструкциями. При обнаружении несоответствий система корректирует информацию, чтобы она отражала фактическую работу в программной среде, создавая надёжные и проверенные инструкции.
Для оценки эффективности UI-Evol был протестирован на Agent S2, одном из лучших агентов для компьютерного использования, с использованием бенчмарка OSWorld. Эксперименты с агентами, основанными на ведущих LLM, таких как GPT-4o и OpenAI-o3, показали два ключевых улучшения: более высокие показатели успешности и большую согласованность, что привело к снижению стандартного отклонения поведения, что сделало агентов более надежными.
Благодаря этой работе Microsoft могла бы значительно улучшить работу агентов в сфере автоматизации делопроизводства и виртуальных помощников.
Иван Ковалев
VIAВполне вероятно, что в какой-то определенный момент вы стали замечать, что ваш компьютер стал работать медленнее, чем
Вам предоставляется возможность поиграть за любую команду национальной баскетбольной ассоциации США, правда каждую из
Операционная система Android на сегодняшний день, из достаточно простой и насквозь «дырявой» управляющей оболочки