Flaga - Unia Europejska
Wróć
18.04.2024

Naj w AI #19 – Muzyka AI

AI

Naj w AI #19 – Muzyka AI

AUTOR: Maciej Rubczyński – Head of Development | Big Data & AI Solutions Architect w TIDK

Modele generatywne brylują w kreatywnych zadaniach, jak tworzenie nowych tekstów, obrazów, filmików, ale również dźwięku i muzyki. Głośnym echem odbił się film EvelenLabs, przedstawiający Leonardo DiCaprio mówiącego głosami różnych znanych osobistości. Oczywiście tego typu rozwiązania pozwalające na sztuczną syntezę głosu były dostępne już wcześniej, jednak LLM pozwalają na wydobycie zdecydowanie lepszych rezultatów i dodatkowo łącząc możliwości różnych modeli tworzyć całościowo ciekawe produkty.


Problemy i wyzwania związane z dźwiękiem można podzielić na kilka głównych kategorii. Najczęściej spotykane wykorzystanie GenAI to generowanie muzyki oraz syntezatory mowy. Swoje rozwiązania tych modeli stopniowo dostarcza każdy z największych graczy na rynku. Open AI zaimplementowało Jukebox, oferuje również swój model TTX, Microsoft pozwala na tworzenie tego typu treści w ramach Copilot dzięki integracji z Suno AI, a Google ma model MusicLM.


Jeszcze kilka miesięcy temu muzyka tworzona przez sztuczną inteligencję nie brzmiała w żaden sposób przyjemnie dla ludzkiego ucha. Dzięki nowo powstałym modelom zaczęło się to jednak drastycznie zmieniać. Każdy z nas może spróbować stworzyć własną muzykę z wykorzystaniem np. modelu Bark tworzonego przez Suno AI i dostępnego na licencji MIT. Powstaje wiele serwisów, gdzie wystarczy wpisać nasze zapytanie i generowana jest muzyka. Zachęcam do sprawdzenia chociażby https://www.udio.com/.
Z ciekawszych polskich rozwiązań interesującym projektem jest Radio Synteza. Jest to radio w całości zbudowane o modele GenAI. Co ciekawe, nie składa się tylko z muzyki, ale również dwóch dziennikarzy rozmawiających i prowadzących audycję. Radio można słuchać poprzez YouTube, zachęcam też do zapoznania się z artykułem, w którym twórcy szczegółowo opisują w jaki sposób generują treści i muzykę oraz wystawiają rezultaty dla świata zewnętrznego.


Muzyka w Radiu Synteza jest już na na tyle wysokim poziomie, że przeciętny słuchacz nie byłby w stanie rozróżnić jej od tej stworzonej przez człowieka. Trochę gorzej wygląda sytuacja rozmów prowadzących – są one dość powolne i nienaturalne, co nie zmienia faktu, że ich treść jest zwykle sensowna. Jako model TextToSpeech jest wykorzystywany Bard od Suno AI. Sam proces tworzenia piosenek nie jest też na ten moment zautomatyzowany. Składa się z przygotowania tekstu piosenki poprzez konwersacje z ChatGPT, nie jest to więc jedno zapytanie, tylko proces angażujący jeszcze twórcę. Następnie tekst wraz z odpowiednim zapytaniem pozwala stworzyć muzykę z wykorzystaniem modelu Chirp. Biorąc pod uwagę hobbystyczną skalę przedsięwzięcia, Radio dostarcza naprawdę niezłe efekty, jest też wciąż spore pole do większej automatyzacji i jeszcze wyższej jakości rozmów i piosenek. Zachęcam do sprawdzenia samemu: https://www.youtube.com/@RadioSynteza


A jeśli w ramach uczłowieczenia prowadzących będziemy ich chcieli pokazać jako awatary „gadających głów” z pomocą może nam przyjść nowy model VASA-1 od Microsoft. Model pozwala na stworzenie filmiku przedstawiającego głowę osoby mówiącej daną treść, naturalnie poruszającą ustami i z całkiem rzeczywiście wyglądającą mimiką twarzy. Autorzy zaprezentowali rezultaty pokazując m.in. Monę Lisę rapującą Paparazzi. Model ciekawie potrafi zaprezentować różne sekwencje mimiki twarzy, w zależności od zapytania. Jego użycie nie będzie jednak proste, Microsoft nie planuje wydawać modelu w ramach API ani produktu. Jest to oczywiście związane z polityką Responsible AI, tego rodzaju model pozwala na wykorzystanie go w ramach niebezpiecznych nadużyć.

Źródła:

  • https://elevenlabs.io/
  • https://www.youtube.com/@RadioSynteza
  • https://medium.com/@komorra/radio-synteza-polskie-radio-generowane-przez-ai-6933b32f0995
  • https://github.com/suno-ai/bark
  • https://suno.com/
  • https://google-research.github.io/seanet/musiclm/examples/
  • https://www.microsoft.com/en-us/research/project/vasa-1/

Partnerstwa

tidk logo

Bałtycka 6
61-013 Poznań