14.12.2023

Naj w AI #3 Rywalizacja gigantów, Gemini vs GPT.

AUTOR: Maciej Rubczyński – Head of Development | Big Data & AI Solutions Architect w TIDK

Każda technologia rozwija się nieco inaczej. Gdy popularność zdobywały rozwiązania do przetwarzania Big Data to open source wiódł prym, dopiero w kolejnym kroku firmy zaczęły opakowywać go w ramach swoich serwisów i rozwiązań. W przypadku LLM, przez duże wymagania obliczeniowe problemu, wydaje się, że ostatecznie modele state-of-the-art będą już domeną największych firm technologicznych: Google i Microsoft.

Niedawna inauguracja Gemini spowodowała znaczne poruszenie w świecie dużych modeli językowych. Od momentu premiery Chata GPT to Open AI dzierżył miano dostawcy LLM o najwyższej skuteczności, pomimo ciągłego powstawania niezliczonych nowych rozwiązań. W ramach komunikatu o swoim nowym modelu Google wskazaływało jednak przewagę w skuteczności odpowiadania na pytania dotyczące wiedzy ogólnej względem GPT-4, podając rezultat 90,0% vs 86,4%.

Już jednak w tabeli pokazywanej przez autorów można zauważyć pewną rozbieżność – porównywane są nie do końca te same metody wykonywania zapytań do modelu. Wynik GPT-4 uzyskano stosując few-shot prompting, dokładnie 5-shot. Jest to metoda polegająca na podaniu kilku przykładów by model na ich podstawie nauczył się zależności w danych. Przykładowo dla zapytania „oceń sentyment zdania” dodaje się 5 przykładów ze spodziewanymi odpowiedziami np. „Input: Nienawidzę ludzi. Output: Sentyment negatywny”. Rezultat wskazany dla Gemini wykorzystywał natomiast metodę Chain-of-thought prompting. Jest to podejście wymagające dodatkowego opisania modelowi w jaki sposób uzyskany został wynik. W podejściu z few-shot prompting dla zapytania „Marika ma 5 piłek tenisowych. Kupiła 2 dodatkowe kartony piłek. W każdym z nich jest 10 piłek. Ile piłek tenisowych ma teraz?” mielibyśmy w dostarczanych do modelu przykładach odpowiedź „Marika ma teraz 25 piłek”. W przypadku Chain-of-thought przykład odpowiedzi jest uzupełniany o wyjaśnienie sposobu rozumowania: „Marika miała na start 5 piłek, potem kupiła 2 kartony w każdym po 10 piłek. W sumie kupiła więc 20 piłek. Na start miała ich 5, więc teraz ma 5+20 czyli 25 piłek. Odpowiedź to 25”. Te dwa sposoby wykonywania zapytań do modelu różnią się więc szczegółowością przykładów i potrafią dostarczyć nam zupełnie inne rezultaty. Co ciekawe, gdy wejdziemy w publikację naukową o Gemini, porównywane są już jabłka do jabłek, te same sposoby wykonywania zapytań są wskazane obok siebie.

Microsoft na inaugurację Gemini odpowiedział artykułem opisującym alternatywne podejścia do promptingu. Rozwiązanie polega na powiązaniu kilku podejść: few-shot prompting, losowego few-shot prompting, chain-of-thought i następnie jeszcze głosowaniem, który prompt wygenerował odpowiedź, która najmniej halucynuje. Idea pochodzi z artykułu w którym sprawdzano możliwości dopasowania zapytań do dostosowania się do wiedzy medycznej, stad nazwa to Medprompt. Dzięki zastosowaniu tak skomplikowanego podejścia do wykonywania zapytań Microsoft ogłosił, że osiągnął najlepszy w historii wynik na zbiorze pytań z wiedzy ogólnej MMLU, czyli 90,10% vs 90,04%. Jak widać, różnice są już nieznaczne, ale rywalizacja między gigantami zapowiada się ciekawie 😊

Odbiegając od modeli językowych, wciąż świetnie prezentują się obrazy generowane przez inny model dostarczany przez OpenAI. Ostatnio internet podbijają różne wersję opakowań klocków Lego, stąd i w tym newsletterze nie mogło ich zabraknąć 🙂 Wszystkie zdjęcia poniżej, również to wykorzystane jako główne dla Newslettera, są wygenerowane z wykorzystaniem Dalle-3, z poziomu https://designer.microsoft.com/image-creator, zachęcam do wypróbowania samemu.