26.02.2024

Naj w AI #12 Generowanie filmów od OpenAI i nietypowe grafiki od Gemini

AUTOR: Maciej Rubczyński – Head of Development | Big Data & AI Solutions Architect w TIDK

Kolejny tydzień, kolejne dwa duże newsy w świecie GenAI od liderów w tym temacie czyli OpenAI oraz Google. OpenAI zaprezentowało nowy przełomowy model generowania 80s filmów, Sora. Do tej pory modele umożliwiające tworzenie animacji jak MagicAnimate czy Runway.ml umożliwiały stworzenie maksymalnie kilkusekundowych treści. Było możliwe ich łączenie w dłuższe filmy, jednak powodowało to znaczny spadek jakości generowanych obrazów. Model Sora jest w tym aspekcie przełomowy, zapewniając 80s ciągłość treści. Generowane filmy są świetnej jakości, widać niesamowitą różnice względem obrazów przygotowywanych przez AI jeszcze w zeszłym roku. OpenAI na razie udostępniło tylko przykładowe generacje, nie ma możliwości samemu przetestować model, jednak z pewnoscią warto na przykłady spojrzeć.

Śledząc osoby związane z GenAI i technologiami w mediach społecznościowych ciężko jest je zresztą przegapić 😊 Pojawiło się ich na tyle dużo, że przesłoniły równie ważną, jeśli nie ważniejszą nowość w świecie GenAI – Gemini 1.5. Gemini jako nowy model od Google pojawia i rozwija się stopniowo od grudnia. Wersja 1.5 jest jednak wyjątkowa, pozwalając na drastyczne zwiększenie kontekstu przekazywanego do modelu. Dotychczas chcąc dostarczyć większy wolumen treści do modeli typy GPT konieczne było albo dotrenowanie modeli swoimi danymi, albo wykorzystanie metodologii Retrieval Augmented Generation (RAG). RAG wymaga stworzenia reprezentacji wektorowych dokumentów, a następnie przeszukiwanie tych dokumentów z wykorzystaniem modelu. Dzięki zwiększeniu kontekstu tego typu podejścia mogą być już zbędne. Przykładowo – wykorzystując Gemini 1.5 możemy dostarczyć całe repozytorium naszego kodu i szybko stworzyć chat podpowiadający nam sugestie zmian i umiejący go w sensowny sposób wyjaśnić.

Dla osób chcących poznać głębiej podstawy działania Gemini Google wypuściło tez ciekawą alternatywę, model Gemma. Jest to model z mniejszą liczbą parametrów, jednak wagi do niego zostały upublicznione podobnie jak w przypadku LLamy od Meta. Dodatkowo Google udostępnił sporo materiałów w stylu notebooków Colab czy Kaggle umożliwiających szybkie wykorzystanie Gemmy. Must have dla każdego chcącego poznać LLM od środka. Ciekawe jest jak Gemma poradzi sobie na Arenie Chatbotów w porównaniu do rozwiązań open-source takich jak Mistral.

Samo Gemini w wersji produkcyjnej można od niedawna wykorzystywać w ramach subskrypcji Google One AI. Internauci testujący rozwiązanie trafili na pierwsze ciekawe, choć trochę nieoczekiwane problemy. Dotychczas podczas generowania obrazów z Dall-E czy MidJourney częstym problemem było tworzenie wizerunków ludzi jako młodych, pięknych, zwykle białych. By wygenerować osobę starszą trzeba było o to wprost poprosić. W przypadku Gemini poszło to w zupełnie odwrotną stronę. Prosząc o wizerunek np. papieża z XVI wieku dostaniemy grafiki przedstawiające Afroamerykankę jako głowę kościoła, często Indiankę. Podobnie to wygląda w przypadku pokazania zdjęcia przedstawiającego nazistów czy amerykańskich senatorów. Statystyka mniejszości jest zgodna z tym, jakie opinie i poglądy panują obecnie, a nie z tym, jak to wyglądało historycznie. Oczywiście podobnie jak w przypadku Dall-E i MidJourney jesteśmy w stanie to obejść, dokładniej opisując nasze wymagania.

Źródła: