07.12.2023

Naj w AI #2 Gemini – Mikołajkowy prezent od Google

AUTOR: Maciej Rubczyński – Head of Development | Big Data & AI Solutions Architect w TIDK

Świat AI i Gen AI rozwija się w niesamowitym tempie. Codziennie pojawiają się nowe artykuły, rozwiązania i informacje z tematyki Sztucznej Inteligencji. W „Naj w AI” podsumowuje subiektywnie wybrane nowości i artykuły z AI i Gen AI.

W tym roku również Mikołaj zaraził się modą na Generative AI i przyniósł nam nowe rozwiązanie – Gemini. Jest to model stworzony przez Google DeepMind, którego twórcy rzucają wyzwanie OpenAI i GPT-4. Według pracowników Google Gemini uzyskuje lepsze rezultaty niż GPT-4 w 30 z 32 ogólnych testów, przeprowadzanych z dziedzin rozumowania, matematyki, programowania i ogólnego rozumienia języka. Rozwiązanie to będzie dostępne w trzech wersjach: Ultra, Pro oraz Nano. Gemini Pro będzie wykorzystywane w ramach Bard, więc czeka nas ciekawe porównanie możliwości – z jednej strony czat Bard dostarczany przez Google, z modelem Gemini Pro, z drugiej strony czat Bing, z Microsoft i Open AI, z GPT-4 pod spodem.

Podobnie jak GPT-4v Gemini ma mieć niesamowite możliwości związane nie tylko z tekstem, ale również z grafiką. Pozwala na interakcje użytkownika ze zdjęciami, dopytywanie o zawartość zdjęć, tekst pojawiający się na nich, dodatkowo również interakcję z filmami oraz audio. Widać więc główny trend w największych rozwiązaniach Generative AI – multimodalność. Sama możliwość pracy z danymi tekstowymi już nie jest wystarczająca, GPT-4v wprowadziło opcję wykorzystania danych graficznych, Gemini dodaje funkcjonalności związane z filmami i audio.

Ciekawe z pewnością będą nadchodzące w najbliższym czasie porównania między Gemini i GPT-4. Rozwiązanie dostarczane przez OpenAI i Microsoft zdobyło już znaczną renomę, wszelkie nowo powstające modele odwołują się do GPT-4 w ramach weryfikacji możliwości. Gemini z pewnością nie jest rewolucją w porównaniu do GPT-4, uzyskiwane rezultaty są zbliżone, skuteczność w testach jeśli jest lepsza to minimalnie. Jest to jednak pierwszy model od czasu powstania ChatGPT, który może konkurować z rozwiązaniem OpenAI w szerokim zakresie, dotychczasowe modele potrafiły stanąć w szranki z GPT jedynie w przypadku ograniczenia się do konkretnej dziedziny. Może to mieć istotne znaczenie w przypadku wyboru partnera do LLM w organizacjach – dotychczas OpenAI miał niezagrożoną pozycję, jednak zawirowania wewnętrzne w firmie i pojawienie się tak mocnego konkurenta jak Gemini mogą zmienić obecną sytuację.

Przykładowe rezultaty uzyskiwane przez Gemini Ultra:

Na danych dotyczących wiedzy ogólnej (MMLU) uzyskuje skuteczność 90% w porównaniu do 86,4% osiąganych przez GPT-4.
Dla problemu rozumienia tekstu czytanego (DROP) wynik to 82,4% vs 80,9% dla rozwiązania Google.
Gorzej od GPT-4 radzi sobie z tzw. zdroworozsądkowymi problemami życia codziennego (HellaSwag): 87,8% vs 95,3%.
Wymagające problemy matematyczne(MATH) są jeszcze wyzwaniem dla obu rozwiązań, z nieznacznym wskazaniem na Gemini: 52,3% vs 52,9%
W ramach programowania w Pythonie(Natural2Code) skuteczność to 74,9% vs 73,9% w GPT-4.
Rozumienie zawartości zdjęć(VQAv2) wykonuje ze skutecznością 77,8% vs 77,2% w GPT-4v.
Zagadnienia matematyczne ze zdjęć(MathVista) pozwala rozwiązać na poziomie 53,0% vs 49,9% w GPT-4v.
Odpowiada na pytania odnośnie zawartości nagrań wideo(Perception Test MCQU) ze skutecznością 54,7%. Dotychczas najlepsze rozwiązanie w tym zakresie to model SeVILA, osiągający 46,3%.
Z problemem rozumienia tekstu z nagrań audio(CoVoST 2) radzi sobie w 40,1% w porównaniu do 29,1% osiąganych przez Whisper v2, model również dostarczany przez OpenAI.

Przy okazji wprowadzenia Gemini warto się zastanowić, co tak naprawdę różni kolejne modele LLM. Do różnic należy z pewnością długości uczenia, liczba hiperparametrów, wybór funkcji optymalizujących, trenowane są na innej infrastrukturze. Czy w związku z tym jesteśmy już w stanie ocenić, które architektury modeli są najlepsze do uczenia dużych modeli językowych?

Ciekawym spostrzeżeniem w tym temacie podzielił się James Betker, Research Engineer w Open AI. W ramach swojej pracy przygotował i trenował wiele różnych modeli, opartych o diametralnie inne architektury. Jego wniosek jest jeden: przy założeniu, że interesuje nas skuteczność modelu, a pomijamy czas i koszty uczenia, ostatecznie architektura nie ma dużego znaczenia. Jeśli jest czas by na zbiorze danych uczyć model odpowiednio długo, finalnie każda z proponowanych architektur prowadzi do takiego samego rezultatu, Rozbieżności między Llama czy GPT wynikają niemal w większości z danych, jakie zostały przygotowane i wykorzystane do trenowania rozwiązań. Różnice w architekturach pozwalają jedynie zoptymalizować przekazywanie ogromnych wolumenów danych do modelu. Oczywiście przy tej skali danych i kosztach trenowania LLM również jest to niesamowicie istotne.