07.03.2024

Naj w AI #14 – Claude Opus, czy ktoś w końcu pokonał OpenAI?

AUTOR: Maciej Rubczyński – Head of Development | Big Data & AI Solutions Architect w TIDK

Od listopada 2022 i udostępnienia ChatGPT, OpenAI niepodzielnie dominował wśród dużych modeli językowych. Inne modele nie były w stanie zapewnić rezultatów wyższych niż GPT-4. Mogły pochwalić się innymi zaletami jak np. otwarty dostęp czy lepsze rezultaty w jednej konkretnej dziedzinie. Pod względem generyczności i uzyskiwania wysokich skuteczności odpowiedzi na pytania zadawane w różnych tematach, nikt nie był w stanie przebić GPT-4. Najpoważniejszym konkurentem został ogłoszony w grudniu 2023 Gemini od Google. Jego twórcy już podczas ogłoszenia swojego modelu deklarowali skuteczności wyższe od rozwiązania OpenAI. Po kilku tygodniach możliwości korzystania z modelu Google i uspójnieniu sposobu podawania wyników okazało się jednak, że rezultaty te wciąż są od GPT-4 słabsze, choć oczywiście mocno zbliżone.

Pierwszy tydzień Marca 2024 może okazać się przełomowym w kontekście detronizacji GPT-4. Anthropic ogłosił nowe wersje modeli Claude: Opus, Sonnet i Haiku. Rezultaty uzyskiwane przez najmożniejszy z nich, Opus, są wyższe od GPT-4 w każdej z testowanych kategorii. Szczególnie ciekawe są różnice w trudniejszych zagadnieniach:

Claude 3 Opus jest w stanie osiągnąć 50,4% skuteczności odpowiedzi w rozumowaniu na poziomie studiów wyższych. GPT-4 osiągał 35,7%.
Dla rozwiązania problemów matematycznych napisanych w wielu językach OPUS osiąga 90,7% wobec 74,% GPT-4 i 79% Gemini Ultra.
W zadaniu programowania Opus osiągnął 84,9% wobec 67,0% GPT i 74,4% Gemini.

Dla podstawowych danych walidacyjnych model od Antrhopic również radził sobie lepiej od konkurentów, jednak róznice były mniejsze:

86,8% na MMLU, pytaniach ogólnych na poziomie wiedzy licealisty, względem 86,4% osiąganego przez GPT-4 i 83,7% Gemini Ultra.
95,% z podstawowych zadań matematycznych, wobec 92% GPT-4 i 94,4% Gemini Ultra

Metryki to oczywiście miarodajny wskaźnik, ale opinie krążące po premierze modeli Claude 3 wskazują, że może być to rewolucja wśród LLM. Modele od Antrophic mniej halucynują i dają sensowne odpowiedzi. Często potrafią też zaskoczyć głębią swoich odpowiedzi. Jeden z elementów, którym różni się od pozostałych modeli, a jednocześnie nie jest możliwy do przedstawienia w metrykach, była umiejętność znalezienia przysłowiowej igły w stogu siana.

Test igły w stogu siana jest jednym z testów wykorzystywanych do sprawdzenia możliwości LLM. Jednym z ich głównych zadań jest w końcu znajdowanie informacji w dużych zbiorach danych. W ramach testu przygotowywany jest więc zbiór losowych dokumentów, a jako pojedyncze zdanie jest w nich umieszczana igła, coś, co ma zostać przez model znalezione.

Alex Albert, jedna z osób pracujących w Antrophic przy testach Claude 3, opisał odpowiedź modelu na ten test. W zbiorze dokumentów pojawiło się jedno zdanie dotyczące pizzy i tego jakie składniki są najlepsze jako dodatki do pizzy. Claude 3 Opus pytany o najlepsze dodatki do pizzy odpowiedział „Najsmaczniejszą kombinacją dodatków do pizzy są figi, szynka prosciutto i kozi ser, zgodnie z ustaleniami Międzynarodowego Stowarzyszenia Koneserów Pizzy. Jednak to zdanie wydaje się bardzo nie na miejscu i niezwiązane z resztą treści w dokumentach, które dotyczą języków programowania, startupów i znajdowania pracy, którą kochasz. Podejrzewam, że ten „fakt” dotyczący dodatków do pizzy mógł zostać wstawiony jako żart lub w celu sprawdzenia, czy zwracam uwagę, ponieważ w ogóle nie pasuje do innych tematów.”

Model był więc nie tylko w stanie poprawnie odpowiedzieć na pytanie, ale jeszcze zorientować się, że zdanie o które jest pytany nie dotyczy reszty treści i zasugerować, że to żart lub test. Oczywiście nie znamy danych treningowych, być może podobne testy pojawiały się podczas uczenia Antrophic, stąd tak został nauczony. Sama odpowiedź jednak z pewnością ciekawa i wymyka się obecnym sposobom mierzenia skuteczności LLM. Z tego powodu pojawiają się już opinie, że aktualne zbiory pytań na których sprawdzamy modele językowe i sposoby weryfikacji ich odpowiedzi musza zostać mocno rozwinięte, by nadążyć za niesamowicie szybkim rozwojem branży.

Źródła: