Компания Runway, занимающаяся искусственным интеллектом, без разрешения использовала «тысячи» видеороликов с YouTube и пиратских версий фильмов, защищенных авторским правом. 404 Media получили предполагаемые внутренние таблицы, в которых говорится, что стартап по созданию видео с использованием искусственного интеллекта обучил свою модель Gen-3, используя контент YouTube с таких каналов, как Disney, Netflix, Pixar и популярных СМИ.
Предполагаемый бывший сотрудник Runway рассказал, что компания использовала электронную таблицу, чтобы пометить списки видео, которые она хотела добавить в свою базу данных. Затем он загружал их с помощью прокси-программы с открытым исходным кодом, чтобы замести следы. На одном листе перечислены простые ключевые слова, такие как "космонавт", "фея" и "радуга", со сносками, указывающими, нашла ли компания соответствующие высококачественные видеоролики для обучения. Например, термин «супергерой» включает в себя примечание «Множество видеороликов».
Другие заметки показывают, что Runway отметил каналы YouTube с Unreal Engine, режиссером Джошем Нойманом и фан-страницей Call of Duty как хорошие источники обучающих видеороликов с «высоким движением».
«Каналы в этой таблице были попыткой всей компании найти видео хорошего качества для построения модели», — рассказал бывший сотрудник 404 Media. «Затем это было использовано в качестве входных данных для массового веб-сканера, который загружал все видео со всех этих каналов, используя прокси, чтобы избежать блокировки Google».
В списке из почти 4000 каналов YouTube, собранном в одной из электронных таблиц, такие каналы как CBS New York, AMC Theaters, Pixar, Disney Plus, Disney CD и аквариумом Монтерей-Бэй, отмечены как "рекомендуемые".
Кроме того, сообщается, что Runway составил отдельный список видео с пиратских сайтов. Таблица под названием «Источник, не связанный с YouTube» включает 14 ссылок на такие источники, как неавторизованный онлайн-архив фильмов Studio Ghibli, сайты с аниме и пиратскими фильмами, фан-сайт, на котором представлены видеоролики из игр Xbox, и сайт потоковой передачи анимаций Kisscartoon.sh.
В качестве убедительного подтверждения того, что компания использовала такие данные для обучения, 404 Media обнаружила, что запрос видеогенератору имен популярных YouTube-блогеров, перечисленных в электронной таблице, выдал результаты, имеющие сверхъестественное сходство. Важно отметить, что ввод одних и тех же имен в более старую модель Gen-2 от Runway, обученную до предполагаемых данных в электронных таблицах, привел к «несвязанным» результатам, например, к типичным мужчинам в костюмах. Кроме того, после того, как издание связалось с Runway и спросило о сходстве ютуберов в результатах, инструмент искусственного интеллекта вообще перестал их генерировать.
«Я надеюсь, что, поделившись этой информацией, люди лучше поймут масштаб этих компаний и то, что они делают, чтобы создавать «крутые» видеоролики», — сказал бывший сотрудник 404 Media.
По крайней мере, некоторые компании, занимающиеся искусственным интеллектом, стремятся нормализовать свои инструменты и занять лидирующие позиции на рынке, прежде чем пользователи – и суды – поймут, как именно они это делали. Обучение с разрешения посредством лицензионных сделок — это одно, и это еще одна тактика, которую недавно взяли на вооружение такие компании, как OpenAI. Но это гораздо более схематичное (если не противозаконное) предложение рассматривать весь Интернет – материалы, защищенные авторским правом, и все такое – как объект захвата в головокружительной гонке за прибылью и доминированием.
Иван Ковалев
VIA