В MIT разработали систему на базе ИИ, которая способна извлекать партии отдельных музыкальных инструментов из видеозаписи концерта

PixelPlayer способен распознавать движения пикселей и преобразовывать их в звук. (Изображение: MIT CSAIL)

Новый ИИ-алгоритм основанный на глубоком машинном обучении, разработанный в MIT CSAIL называется PixelPlayer. Он способен выделять звучание отдельных музыкальных инструментов на видео, основываясь на движениях пикселей в различных участках, “прислушиваясь” таким образом к необходимым частотам. В MIT утверждают, что система самообучаемая и не требует вмешательства со стороны человека.

Vaidyanathan Subramaniam, Опубликовано 18 July 2018

Софт

Вам когда-нибудь хотелось вытащить партию гитары или саксофона из полюбившейся старой видеозаписи на кассете с чердака, не прибегая к реаранжировке с нуля? В лаборатории компьютерных наук и искусственного интеллекта (CSAIL) в Массачусетском технологическом университете разработали новый ИИ-алгоритм, основанный на технологии глубокого машинного обучения, который создан именно для таких задач.

В CSAIL систему назвали PixelPlayer, она способна идентифицировать, выделять и воспроизводить звук отдельных музыкальных инструментов из видеозаписи буквально в один клик. Руководитель исследователей лаборатории Хан Чжао (Hang Zhao) утверждает, что система обучилась, прослушав 60 часов видео-контента и распознает звук инструментов по микродвижениям пикселей на видеозаписи - и все это без малейшего вмешательства или координации со стороны человека, в том числе и на записях, которые система “видит” впервые.

Исследователи говорят, что возможность извлечения партий отдельных музыкальных инструментов из видеозаписей открывает невиданные доселе перспективы. Например, такая система позволит с легкостью восстанавливать старые концертные записи или даже заменять инструменты, чтобы улучшить/подкорректировать звучание. Разработчики также добавили, что система в своей текущей форме - Pixel Player - способна различать звучание более 20 распространенных музыкальных инструментов и даже может “выучить” больше разновидностей, если предоставить соответствующий материал. Правда, на данный момент имеются некоторые проблемы с распознаванием похожих инструментов. Попытки создания подобного алгоритма на базе искусственного интеллекта предпринимались и ранее, но именно способность распознавать отдельные визуальные элементы делает PixelPlayer действительно самообучающейся системой. Эта особенность, на самом деле, со временем затруднит понимание человеком самого механизма обучения. Сразу вспоминается Скайнет из Терминатора, не так ли?

Согласно Чжао, PixelPlayer работает с помощью нейросетей, которые обучались на большом количестве видеозаписей. Всего таких сетей в системе три, каждая из них занята процессами анализа видео, аудио дорожки и синтезирования аудио потока из различных участков изображения. Чжао и команда разработчиков собираются представить свой проект на европейской конференции компьютерного зрения (ECCV), которая пройдет в сентябре текущего года в Мюнхене.

Ниже вы можете взглянуть на видео с демонстрацией работы данной системы на базе искусственного интеллекта.