Утечка внутренней переписки показывает, что Nvidia ежедневно просматривает видео с YouTube в течение всей жизни, чтобы обучить модель ИИ для видео, и Дженсен доволен прогрессом

Инженеры Nvidia собирают видео с YouTube и других источников, чтобы обучить модель видеоосновы компании Cosmos. (Источник изображения: Nvidia)

Внутренние сообщения Nvidia в Slack, полученные 404 Media, показали, что сотрудники компании, работающие над моделью видеоосновы Cosmos, на данный момент собрали 38,5 миллионов часов видео из различных источников, в основном с YouTube. Сотрудники обращали внимание на возможные проблемы с авторскими правами, но вышестоящие руководители, по всей видимости, дали "зонтичное разрешение" на дальнейшую работу по сбору контента.

Vaidyanathan Subramaniam (перевод Ninh Duy), Опубликовано 06 August 2024 🇺🇸 🇫🇷 ...

AI цифровое право Nvidia

Компания Nvidia обучает свои Омниверсы, самодвижущиеся автомобили и "цифровых людей" на основе данных, взятых из "80-летнего объема видео в день" с YouTube и других источников, как показало расследование 404 Media.

Утечка внутренней переписки, полученная 404 Media, указывает на то, что Nvidia использует эти данные для обучения своей модели видеомира ИИ под названием Cosmos (не путать с существующим сервисом глубокого обучения компании Cosmos)). Внутри компании предполагается, что модель Cosmos станет основой для других направлений Nvidia, включая GeForce, архитектуру GPU, DGX, фреймворки Deep Learning, Omniverse, Avatar, Project GR00T и автономные транспортные средства.

Руководители Nvidia назвали Cosmos самой современной базовой моделью, "которая объединяет моделирование транспортировки света, физику и интеллект в одном месте, чтобы разблокировать различные последующие приложения, критически важные для Nvidia"

404 Media получила доступ к внутренним сообщениям сотрудников в Slack, из которых стало известно, как сотрудники использовали командную строку yt-dlp для загрузки видео с YouTube с помощью 20-30 виртуальных машин AWS, которые обновляли IP-адреса, чтобы избежать блокировки со стороны YouTube. Сайт обмена видео был основным источником для скачивания видео, но сотрудники также рассматривали и другие источники, такие как Netflix и Discovery Channel.

В переписке в Slack видно, как сотрудники обсуждают юридические последствия использования защищенного авторским правом контента для обучения искусственного интеллекта, но руководители проекта отвергают их как решение руководства, о котором им не стоит беспокоиться.

Среди популярных YouTube-каналов, которые сотрудники Nvidia включили в шорт-лист, - MKBHD, PickUpLimes, Architectural Digest, Expedia, Mediastorm6801, 8kEarth, The CriticalDrinker и другие.

Когда мы связались с 404 Media, и YouTube, и Netflix заявили, что соскабливание контента на их платформах для обучения моделей ИИ является явным нарушением условий предоставления услуг.

Использование данных, защищенных авторским правом, для обучения моделей ИИ все еще остается серой юридической зоной. Публичные наборы данных, такие как InternVid-10M, HD-VG-130Mи другие, основанные на миллионах видеороликов на YouTube, существуют, но они предназначены только для академических исследований, а не для коммерческих целей. Хотя в компании Nvidia работают академические исследователи, в конечном счете, полученные результаты попадут в коммерческий продукт.

На сайте есть несколько законодательных актов которые предписывают стандарты прозрачности и требуют от компаний, работающих над основополагающими моделями ИИ, сотрудничать с FTC и Бюро по авторским правам. Однако компании не всегда раскрывают свои исходные наборы данных, что значительно усложняет аудит.

Поскольку крупные ИИ-компании продолжают использовать все доступные публичные данные для обучения более эффективных моделей, законодательные изменения являются насущной необходимостью для обеспечения безопасности потребителей и защиты авторских прав.

В прошлом году газета The New York Times подала в суд на OpenAI и Microsoft за несанкционированное использование статей издания, защищенных авторским правом, для обучения моделей ИИ. В мае художники подали иск против Stability AI, Midjourney, DeviantArt и Runway AI за использование копий их работ для обучения моделей ИИ без разрешения.

YouTube становится золотой жилой для компаний, занимающихся разработкой ИИ. Недавно журнал Wired сообщил что такие крупные компании, как Apple, Nvidia, Anthropic и Salesforce, вырезали субтитры из 173 536 видеороликов на YouTube с более чем 48 000 каналов, чтобы обучить свой ИИ.

До конца мая сотрудники Nvidia объявили, что собрали 38,5 миллионов URL-адресов видео, причем большинство из них - кинематографический контент. Инженеры также добавили такие наборы данных, как Ego-Exo4D, Ego4D, HOI4Dи данные об играх с сайта GeForce Now.

В то время как Ego-Exo4D и Ego4D могут быть лицензированы как для академического, так и для коммерческого использования, HOI4D распространяется по лицензии CC BY-NC, которая специально запрещает коммерческое использование.

В настоящее время команда тренирует модель 1B с 16 узлами в каждой, а в дальнейшем планирует увеличить ее до 10B.

Компания Nvidia сообщила 404 Media по электронной почте:"Наши модели и наши исследовательские усилия полностью соответствуют букве и духу закона об авторском праве"

Между тем, Генеральный директор Nvidia Дженсен Хуанг, похоже, доволен успехами своих сотрудников.

Как сообщается, он воскликнул: "Отличное обновление. Многим компаниям приходится создавать видео FM [фундаментальные модели]. Мы можем предложить полностью ускоренный конвейер"

Наборы данных, использованные в тренинге Cosmos главным научным сотрудником Nvidia Франческо Феррони. (Источник: 404 Media)

Популярные каналы YouTube, рекомендованные сотрудниками Nvidia для обучения игре Cosmos. (Источник: 404 Media)

График распределения видео, составленный из 38,5 миллионов URL-адресов. (Источник: 404 Media)

SCOOP from @samleecole: Leaked Slacks and documents show the incredible scale of NVidia's AI scraping: 80 years — "a human lifetime" of videos every day. Had approval from highest levels of company despite staff legal/ethical concerns:https://t.co/DydXOyffUQ
— Jason Koebler (@jason_koebler) August 5, 2024

Источник(и)

404 СМИ (требуется регистрация)

@jason_koebler на X

Ещё по теме

YouTube Premium Lite стоит $7,99 в месяц в США (Источник изображения: YouTube - отредактировано)

YouTube представляет доступный тарифный план Premium Lite 06 March 2025

YouTube (и Google) активно отслеживают данные, но есть способы сохранить свои данные на YouTube у себя дома. (Источник изображения: OpenArt.ai)

Освободитесь от слежки YouTube, стоит ли (или практично ли) размещать свой собственный фронт-энд YouTube 06 October 2024

Команда Green продолжает придумывать новые способы сделать свои ИИ-акселераторы незаменимыми (Источник изображения: Notebookcheck)

Платформа Nvidia Earth-2 получает новую модель искусственного интеллекта StormCast для более тонких предупреждений о плохой погоде 23 August 2024

Игровой ноутбук DIY с аппаратным обеспечением для настольных ПК не имеет батареи (Источник изображения: Socket Science)

На сайте YouTuber показан игровой ноутбук DIY, собранный из компонентов настольного компьютера 16 August 2024

Zeromouse V35 - невероятно легкая, минималистичная игровая мышь, которая требует некоторой сборки. (Источник изображения: Zeromouse)

YouTuber собирает ультралегкую игровую мышь Zerømouse весом 16 г с внутренностями Razer Viper V2 Pro 16 August 2024

GeForce RTX 4070 вскоре будет выпущен в виде чуть более медленной версии. (Источник изображения: Nvidia)

Потенциально более дешевый Nvidia GeForce RTX 4070 с GDDR6 VRAM появится на рынке 20 августа 13 August 2024

Новый вариант Nvidia GeForce RTX 4070 находится на стадии разработки (источник изображения: Nvidia)

Nvidia GeForce RTX 4070 вариант с GDDR6 VRAM, как сообщается, уже в работе 06 August 2024

Компания Nvidia совместно с Falcon Northwest разыгрывает игровой ПК на базе RTX 4090 06 August 2024

Компании Nvidia запрещено продавать GPU H100 для центров обработки данных китайским клиентам. (Источник изображения: Nvidia, ridvan-selli на Pixabay, отредактировано)

По сообщениям, контрабандисты поставляют в Китай запрещенные чипы Nvidia AI стоимостью в миллионы долларов, поскольку США пытаются ужесточить торговое эмбарго 06 August 2024

Nvidia RTX 3060 в настоящее время является самым популярным GPU в списке аппаратных опросов Steam (Источник изображения: Nvidia)

Инсайдер утверждает, что компания Nvidia тихо прекратила выпуск самого популярного в настоящее время GPU 05 August 2024

Microsoft добавляет опции графических процессоров Nvidia и AMD к предложениям Windows 365 Cloud PC. (Источник изображения: Microsoft)

Microsoft добавляет опции графических процессоров Nvidia и AMD к предложениям облачных ПК Windows 365 04 August 2024

Компания Nvidia выпустила RTX 4080 в ноябре 2022 года по цене $1 199. (Источник изображения: Notebookcheck, Ally Griffin на Unsplash, отредактировано)

Геймеров ожидает повышение цен на серию RTX 40, поскольку компания Nvidia, как сообщается, начинает массовое сокращение поставок 02 August 2024

Megamini G1 - это мощно. (Источник изображения: Geekom)

Megamini 1: ПК объединяет в компактном корпусе мощный процессор, готовую к играм видеокарту Nvidia и водяное охлаждение 28 July 2024

Snapdragon 8 Gen 4: Утечка раскрыва...

AMD Ryzen AI 9 HX 370 при мощности ...

Автор исходного текста: Вайдианатан Субраманиам (Vaidyanathan Subramaniam) - Ведущий редактор - 1997 статей на Notebookcheck c 2012 года

Я учился на клеточного и молекулярного биолога, но именно компьютеры всегда были едва ли не главной частью моей жизни. Первый компьютер появился у меня в 1998 году. Мой интерес к миру технологий с тех пор вырос и расширился. С 2017 года я пишу материалы для Notebookcheck, это - большой успех и результат тех долгих лет, в течение которых я давал ценные советы и оказывал помощь всевозможным друзьям и знакомым. Сейчас я пишу новости и делаю обзоры, важные как для индийского читателя, так и для всего мира. В те часы, когда я не занят чтением/написанием новостей технологического мира или проведением испытаний очередной железки, я стараюсь расслабиться при помощи чтения, душевной музыки или вышедшей недавно игры.

contact me via: @Geeky_Vaidy

Автор перевода: Нин Нгок Дуй (Ninh Ngoc Duy) - Помощник редакции - 521685 статей на Notebookcheck c 2008 года

Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.

contact me via: Facebook

Этот важный материал точно понравится твоим друзьям в социальных сетях!

> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2024 год, 08 месяц > Утечка внутренней переписки показывает, что Nvidia ежедневно просматривает видео с YouTube в течение всей жизни, чтобы обучить модель ИИ для видео, и Дженсен доволен прогрессом

Vaidyanathan Subramaniam, 2024-08- 6 (Update: 2024-08- 6)