В отрасли AI открылся настоящий подпольный рынок данных для обучения новых интеллектуальных алгоритмов

от: 05-04-2024 14:13 | раздел: Новости

На пике своего развития в начале 2000-х годов Photobucket был ведущим в мире сайтом по размещению изображений. Основа некогда популярных сервисов, таких как Myspace и Friendster, имела 70 миллионов пользователей и занимала почти половину рынка онлайн-фотографий США.

По данным аналитического трекера Likeweb, сегодня только 2 миллиона человек по-прежнему используют Photobucket. Но революция генеративного искусственного интеллекта может дать ему новую жизнь.

Генеральный директор Тед Леонард, управляющий компанией из 40 сотрудников из Эдвардса, штат Колорадо, сообщил Reuters, что ведет переговоры с несколькими технологическими компаниями о лицензировании 13 миллиардов фотографий и видео Photobucket, которые будут использоваться для обучения генеративных моделей искусственного интеллекта, которые могут в ответ создавать новый контент по текстовым подсказкам.

По его словам, он обсуждал ставки от 5 центов до 1 доллара за фотографию и более 1 доллара за видео, причем цены сильно различаются как в зависимости от покупателя, так и в зависимости от типа искомых изображений.

"Мы говорили с компаниями, которые говорили: "Нам нужно гораздо больше", — добавил Леонард, а один покупатель сказал ему, что им нужно более миллиарда видео, больше, чем есть на его платформе.

Photobucket отказалась назвать своих потенциальных покупателей, сославшись на коммерческую тайну. Продолжающиеся переговоры, о которых ранее не сообщалось, предполагают, что компания может получить контент на миллиарды долларов и дать представление о оживленном рынке данных, который возникает в стремлении к доминированию в технологиях генеративного искусственного интеллекта.

Технологические гиганты, такие как Google и Meta при поддержке Microsoft и OpenAI изначально использовали массу данных, бесплатно извлеченных из Интернета, для обучать генеративным моделям искусственного интеллекта, таким как ChatGPT, которые могут имитировать творческие способности человека. Они заявили, что это и законно, и этично, хотя им грозят судебные иски со стороны ряда правообладателей по поводу этой практики.

В то же время эти технологические компании также незаметно платят за контент, заблокированный за платным доступом и экранами авторизации для входа в систему, что приводит к скрытой торговле всем, от журналов чатов до давно забытых личных фотографий из устаревших приложений социальных сетей.

"Сейчас наблюдается срочная необходимость обратиться к правообладателям, у которых есть частные коллекции материалов, которые нельзя [юридически - прим.ред.] очистить", — сказал Эдвард Кларис из юридической фирмы Klaris Law, которая утверждает, что консультирует владельцев контента по сделкам на десятки миллионов долларов. за штуку, чтобы лицензировать архивы фотографий, фильмов и книг для обучения ИИ.

Reuters поговорило с более чем 30 людьми, знакомыми со сделками с данными ИИ, в том числе с нынешними и бывшими руководителями вовлеченных компаний, юристами и консультантами, чтобы провести первое углубленное исследование этого молодого рынка - с подробным описанием типов покупаемого контента, цен. материализуются, а также возникают опасения по поводу риска попадания личных данных в модели ИИ без ведома или явного согласия людей.

OpenAI, Google, Meta, Microsoft, Apple и Amazon отказались комментировать конкретные сделки с данными и обсуждения для этой статьи, хотя Microsoft и Google рекомендовали Reuters ознакомиться с кодексами поведения поставщиков, которые включают положения о конфиденциальности данных.

Google добавила, что «примет немедленные меры, вплоть до расторжения» соглашения с поставщиком, если обнаружит нарушение.
Многие крупные фирмы, занимающиеся исследованием рынка, заявляют, что они даже не начали оценивать размер непрозрачного рынка данных ИИ, на котором компании часто не раскрывают соглашения. Те исследователи, которые это делают, такие как Business Research Insights, оценивают рынок сейчас примерно в 2,5 миллиарда долларов и прогнозируют, что в течение десятилетия он может вырасти почти до 30 миллиардов долларов.

Захват данных происходит в то время, когда создатели крупных генеративных «основных» моделей ИИ сталкиваются с растущим давлением необходимости учитывать огромные объемы контента, которые они загружают в свои системы, процесс, известный как "обучение", который требует интенсивных вычислительных мощностей и часто занимает месяцы.

Технологические компании заявляют, что эта технология была бы непомерно дорогой, если бы они не могли использовать обширные архивы данных бесплатных веб-страниц, например, предоставленные некоммерческим репозиторием Common Crawl, который они называют "общедоступным".

Тем не менее их подход вызвал волну судебных исков по поводу авторских прав и нормативных требований, одновременно побуждая издателей добавлять на свои веб-сайты код, чтобы заблокировать парсинг.

В ответ создатели моделей ИИ начали хеджировать риски и обеспечивать безопасность цепочек поставок данных, как посредством сделок с владельцами контента, так и через растущую индустрию брокеров данных, которая появилась для удовлетворения спроса.
Например, через несколько месяцев после дебюта ChatGPT в конце 2022 года такие компании, как Meta, Google, Amazon и Apple, заключили соглашения с поставщиком стоковых изображений Shutterstock на использование сотен миллионов изображений, видео и музыкальных файлов в своей библиотеке для обучения, согласно данным человек, знакомый с механизмами.

Сделки с крупными технологическими фирмами первоначально варьировались от $25 до $50 млн каждая, хотя позже большинство из них были расширены, сообщил агентству Reuters финансовый директор Shutterstock Джаррод Яхес. Его примеру последовали более мелкие технологические игроки, что вызвало новый «шквал активности» за последние два месяца, добавил он.

Яхес отказался комментировать отдельные контракты. Соглашение с Apple и размер других сделок ранее не разглашались.

Конкурент Shutterstock, компания Freepik, сообщила Reuters, что заключила соглашения с двумя крупными технологическими компаниями о лицензировании большей части своего архива из 200 миллионов изображений по цене от 2 до 4 центов за изображение. В стадии разработки находятся еще пять подобных сделок, сообщил генеральный директор Хоакин Куэнка Абела, отказавшись назвать покупателей.

OpenAI, один из первых клиентов Shutterstock, также подписал лицензионные соглашения как минимум с четырьмя новостными организациями, включая Associated Press, и Axel Springer. Компания Thomson Reuters, владелец Reuters News, отдельно заявила, что заключила сделки по лицензированию новостного контента, чтобы помочь в обучении больших языковых моделей ИИ, но не раскрыла подробностей.

Также развивается индустрия специализированных фирм, занимающихся данными в области искусственного интеллекта, которые обеспечивают права на реальный контент, такой как подкасты, короткие видеоролики и взаимодействие с цифровыми помощниками, а также создают сети работников по краткосрочным контрактам для создания пользовательских визуальных эффектов и образцов голоса с нуля. , что-то вроде Uber-экономики данных.

Базирующаяся в Сиэтле компания Defined.ai лицензирует данные ряду компаний, включая Google, Meta, Apple, Amazon и Microsoft, сообщила Reuters генеральный директор Даниэла Брага.

Ставки варьируются в зависимости от покупателя и типа контента, но, по словам Браги, компании обычно готовы платить от 1 до 2 долларов за изображение, от 2 до 4 долларов за короткометражное видео и от 100 до 300 долларов за час более длинных фильмов. Рыночная ставка текста составляет 0,001 доллара за слово, добавила она.

По ее словам, изображения обнаженной натуры, требующие самого деликатного обращения, стоят от 5 до 7 долларов.

Defined.ai делит эти доходы с контент-провайдерами, сказал Брага. Она позиционирует свои наборы данных как «этически полученные», поскольку получает согласие от людей, чьи данные использует, и удаляет личную информацию, добавила она.
Один из поставщиков фирмы, предприниматель из Бразилии, заявил, что платит владельцам фотографий, подкастов и медицинских данных, которые он получает, от 20% до 30% от общей суммы сделки.

Самые дорогие изображения в его портфолио — те, которые используются для обучения систем искусственного интеллекта, которые блокируют контент, например изображения насилия, запрещенные технологическими компаниями, сказал поставщик, который говорил при условии, что его компания не будет идентифицирована, сославшись на коммерческую конфиденциальность.

Чтобы выполнить эти запросы, он получает изображения мест преступлений, конфликтов и операций – в основном от полиции, фотожурналистов-фрилансеров и студентов-медиков соответственно – часто в местах Южной Америки и Африки, где распространение графических изображений более распространено, сказал он.

Он сказал, что получал изображения от фотографов-фрилансеров в секторе Газа с начала войны там в октябре, а также некоторые изображения из Израиля в начале боевых действий.

Его компания нанимает медсестер, привыкших видеть насильственные травмы, для анонимизации и аннотирования изображений, которые раздражают неподготовленный глаз, добавил он.

Хотя лицензирование может решить некоторые юридические и этические проблемы, возрождение архивов старых интернет-имен, таких как Photobucket, в качестве топлива для новейших моделей искусственного интеллекта поднимает другие, особенно связанные с конфиденциальностью пользователей, по мнению многих опрошенных игроков отрасли.

Системы искусственного интеллекта были пойманы на том, что создают точные копии своих обучающих данных, убирая, например, водяной знак Getty Images, дословные абзацы статей New York Times и изображения реальных людей. Это означает, что личные фотографии или интимные мысли человека, опубликованные десятилетия назад, потенциально могут оказаться в генеративных результатах ИИ без предварительного уведомления или явного согласия.

Генеральный директор Photobucket говорит, что у него есть прочная правовая основа, ссылаясь на обновление условий обслуживания компании в октябре, которое предоставляет ей «неограниченное право» продавать любой загруженный контент с целью обучения систем искусственного интеллекта. Он рассматривает данные о лицензировании как альтернативу продаже рекламы.

"Нам нужно оплачивать наши счета, и это может дать нам возможность продолжать поддерживать бесплатные аккаунты", — сказал он.

В свою очередь, Брага из Defined.ai заявил, что избегает приобретения контента от "платформенных" компаний, таких как Photobucket, и предпочитает получать фотографии в социальных сетях от влиятельных лиц, которые их создают, которые, по ее словам, имеют более четкие права на лицензионные права.

"Я считаю это очень рискованным", — сказал Брага о контенте платформы. "Если существует какой-то ИИ, который генерирует что-то, напоминающее изображение человека, который никогда этого не одобрял, это проблема".

Photobucket — не единственная платформа, которая использует лицензирование. Материнская компания Tumblr Automattic заявила в прошлом месяце, что делится контентом с "избранными компаниями, занимающимися искусственным интеллектом". В феврале агентство Reuters сообщило, что Reddit заключил сделку с Google, чтобы сделать ее контент доступным для обучения моделей искусственного интеллекта последней.

В преддверии своего первичного публичного размещения акций в марте Reddit сообщил, что его бизнес по лицензированию данных является предметом расследования Федеральной торговой комиссии США, и признал, что он может противоречить меняющимся правилам конфиденциальности и интеллектуальной собственности.

Федеральная торговая комиссия, которая предупредила предприятия, в феврале против ретроактивного изменения условий обслуживания для использования ИИ, отказалась комментировать запрос Reddit или сообщить, изучает ли она другие сделки с обучающими данными.

Иван Ковалев

VIA

Подписывайтесь и читайте новости от ITквариат раньше остальных в нашем Telegram-канале !

Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

И еще об интересном...

Почему современные компьютерные игры используют так много видеопамяти?

Новейшие инструменты Cadence на основе ИИ участвуют в разработке новых полупроводниковых микросхем и печатных плат

LG G6: большой тест - обзор

Как Microsoft создает Xbox One X - самую мощную игровую консоль в мире (+видео)

Почему никому в мире не нужны ваши приложения?

"Белый Квадрат" 2020 представил полную программу фестиваля

Xbox One vs PS4: Самое детальное сравнение двух платформ

А что вы думаете? Напишите в комментариях!

Кликните на изображение чтобы обновить код, если он неразборчив

В комментариях запрещено использовать ненормативную лексику, оскорблять других пользователей сайта, запрещены активные ссылки на сторонние сайты и реклама в комментариях. Уважаемые читатели! Просим вас, оставляя комментарии, уважать друг друга и не злоупотреблять свободой слова. Пользователи, которые нарушают эти правила грубо или систематически, будут заблокированы.

Полная версия правил

Самое популярное

Компания Xpeng теряет руководителя отдела робототехники в преддверии начала массового производства гуманоидных роботов

Модель MAI-Image-2.5 от Microsoft вошла в тройку лидеров Arena благодаря улучшенной генерации изображений

ИИ-контент в YouTube теперь будет отмечаться более наглядно

Игровые ноутбуки: зачем выбирать ноутбуки с OLED-экраном

Как создавать виджеты на Android-телефоне не зная ни строчки кода

Проверьте скорость вашего интернета!

Что бывало...

Новости / О разном...

16 декабрь 2018
Почему мобильное FM-радио уходит в историю? (Обновлено!)

Все знают, что FM-радио обладает потрясающими преимуществами: оно бесплатное, не требует загрузки ваших личных данных,

Soft / Программирование

19 май 2023
Облачные решения: современные тенденции и перспективы развития

Облачные решения – это сервисы, которые предоставляют доступ к ресурсам и программам через Интернет. В этой статье мы

Hard / Мат.платы, CPU, RAM, видеокарты

16 февраль 2017
Обзор игровой материнской платы ASRock Fatal1ty X99X Killer/3.1

Материнская плата ASRock Fatal1ty X99X Killer/3.1 как по своей конструкции, так и функционально является совершенно