Forum i społeczności

_J.G.M_

Separacja dźwięków to technologia służąca do izolacji poszczególnych dźwięków ze zmiksowanego sygnału audio. Początkowo zadanie to uważano za wyjątkowo trudne, ale w 2013 roku wprowadziliśmy technologię sztucznej inteligencji, radykalnie usprawniając ten proces. Dzięki niej udało się między innymi odmłodzić klasyczne filmy, wyeliminować zakłócenia ze smartfonów i zapewnić użytkownikom serwisów streamingowych funkcję karaoke, która działa w czasie rzeczywistym. Spodziewamy się, że w przyszłości zakres zastosowań jeszcze się rozszerzy.

Więcej na ten temat opowiadają Yuki Mitsufuji z ośrodka badawczo-rozwojowego w Tokio i Stefan Uhlich z ośrodka badawczo-rozwojowego w Stuttgarcie.

Naśladowanie ludzkich zdolności za pomocą maszyn.

„Kiedy na koncercie gra wiele instrumentów, potrafimy je rozróżnić, tak samo jak w rozmowie w naturalny sposób skupiamy się na głosie rozmówcy, nawet gdy wokół jest wiele innych osób”, wyjaśnia Yuki. Przed wprowadzeniem sztucznej inteligencji bardzo trudno było naśladować tę umiejętność przy użyciu komputerów. „Niektórzy mówili, że to jak zmieszać dwa soki, a potem odfiltrowywać jeden z nich”, wspomina.

Jak działa technologia separacji dźwięków? Można to zobaczyć na poniższym wideo z trzema przykładami z filmu „Lawrence z Arabii”. Jak widać, zakres zastosowań obejmuje izolowanie dialogów i różnych efektów dźwiękowych.

Separacja dźwięków z użyciem sztucznej inteligencji działa poprzez uczenie komputerów realizacji tego zadania.

Weźmy na przykład gitarę. To instrument o bardzo charakterystycznym brzmieniu, przyswajanym przez sieć neuronową na etapie uczenia.

„Podczas uczenia wprowadzamy do sieci bardzo dużo muzyki — więcej niż usłyszymy przez całe życie — oraz dźwięk, który chcemy izolować”, wyjaśnia Stefan. Oznacza to, że niezależnie od ilości różnych dźwięków zmiksowanych w nagraniu nasz system sztucznej inteligencji będzie w stanie rozpoznać charakterystyczne cechy brzmienia gitary i je wyizolować.

„Na podobnej zasadzie rozpoznajemy widziane jabłko, bo jabłka wielokrotnie wiedzieliśmy już wcześniej”, dodaje Yuki. „Separacja dźwięków z użyciem sztucznej inteligencji działa bardzo podobnie, zarówno pod względem mechanizmu, jak i koncepcji”.

Ta technologia nieomal cofa czas.

Dzięki separacji dźwięków z użyciem SI możemy wrócić do starych nagrań, wyizolować wokal lub odseparować instrumenty i ponownie zmiksować utwór. A w przypadku filmów otwierają się nowe perspektywy intensywnej rozrywki.

„Aby widz mógł znaleźć się w otaczającym go ze wszystkich stron polu dźwiękowym, trzeba wytworzyć dźwięki dobiegające z różnych kierunków i stworzyć z nich trójwymiarową przestrzeń audio”, wyjaśnia Stefan. „Ponieważ jednak dialogi i efekty dźwiękowe w klasycznych filmach są nagrane w tej samej ścieżce, mamy ograniczone możliwości separacji dźwięków, a więc i tworzenia intensywnego pola dźwiękowego. Zaczęliśmy zatem zastanawiać się, czy nie dałoby się rozszerzyć naszej technologii na filmy. Przeprowadziliśmy uczenie sieci danymi z biblioteki efektów dźwiękowych i okazało się, że nasz system sztucznej inteligencji jest w stanie wyizolować z taśmy-matki pojedyncze efekty dźwiękowe”.

Widać to w praktyce na materiale wideo z fragmentem „Lawrence’a z Arabii”.

Separacja dźwięków znajduje zastosowanie w wielu dziedzinach, które w pierwszej chwili nie przychodzą nam do głowy.

Yuki wskazuje aibo, psa-robota Sony. „aibo potrafi reagować na głos ludzki i komunikować. Gdyby jednak aibo po prostu przechwytywał dźwięki z otoczenia, znalazłyby się wśród nich odgłosy pracy jego mechanizmów i hałasy powodowane przez wiatr. Dzięki separacji dźwięków z użyciem SI mogliśmy wyizolować głosy ludzi i wyeliminować wszystkie inne dźwięki otoczenia, a tym samym zwiększyć zdolność aibo do rozpoznawania mowy”.

Podobne rozwiązania stosujemy w innych produktach Sony. Za przykład mogą posłużyć smartfony Xperia™, których użytkownicy słyszą wyraźny głos bez hałasów powodowanych przez wiatr. Z kolei technologia „trybu karaoke”, opracowana do aplikacji do streamingu muzyki, eliminuje w czasie rzeczywistym wokal, by umożliwić zmiksowanie źródłowej muzyki z głosem użytkownika.

Co dalej?

Ponieważ Sony PSL i Sony Music Solutions zaczynają oferować tę technologię podmiotom zewnętrznym, Yuki zastanawia się nad jej przyszłością. „Mamy nadzieję, że stanie się ona wehikułem czasu, który pozwoli dawnym i współczesnym artystom na współpracę mimo dzielącego ich czasu”.

Stefan prognozuje z kolei pojawienie się nowych zastosowań. „Pod względem technologicznym będziemy świadkami przejścia do uniwersalnej separacji dźwięków, przy której nieokreślona będzie nie tylko liczba źródeł dźwięku, lecz także rodzaje tych źródeł. Uznano to za trudne do realizacji, ale interesujące rozwiązanie, które znajdzie jeszcze więcej zastosowań komercyjnych”.

Ciekawe, jakie nowe możliwości otworzy przed nami separacja dźwięków z użyciem sztucznej inteligencji. A gdzie Waszym zdaniem powinno się ją zastosować?

Artykuł jest opracowaniem materiału z witryny sony.net. Oryginał znajduje się pod adresem https://www.sony.net/SonyInfo/technology/stories/AI_Sound_Separation/

Forum i społeczności

Dołącz teraz - stań się częścią naszej społeczności!

Porozmawiajmy: separacja dźwięków z użyciem sztucznej inteligencji

Społeczność

Aktualności

Firma

Polub nas na Facebooku

Obserwuj nas na Twitterze

Obserwuj nas na Instagramie

Subskrybuj w serwisie YouTube