29.03.2024

Naj w AI #17 – Detronizacja GPT-4 i nowy model open-source od Databricks

AUTOR: Maciej Rubczyński – Head of Development | Big Data & AI Solutions Architect w TIDK

Dokładnie trzy tygodnie temu w ramach Naj w AI #14 zastanawialiśmy się, czy to już koniec półtorarocznej dominacji GPT-4 w rankingach oceniających LLM. Już teraz widać, że jest to możliwe – w ostatnich dniach Claude 3 Opus od Anthropic jako pierwszy wyprzedził GPT-4 w najpopularniejszym wśród społeczności rankingu, Arenie Botów. Od momentu uruchomienia rankingu w maju 2023 nie udało się to wcześniej nikomu, wliczając w to Gemini od Google. Dodatkowo, tańsza wersja Claude Sonnet również radzi sobie porównywalnie do GPT-4, jednocześnie będąc możliwa do użytku w niższej cenie od rozwiązania OpenAI.

Mocna konkurencja w postaci Anthropic tylko wzmacnia plotki o GPT-5. Coraz więcej wskazuje, że OpenAI ogłosi go już latem tego roku. GPT-5 najprawdopodobniej wykorzysta jeden z elementów publikacji rozwiązań tego typu u konkurencji: podobnie jak Google czy Anthropic ma wypuścić nowe GPT w kilku wersjach, różniących się kosztem i możliwościami. Ma być to też rozwiązanie multimodalne, czyli nie skupiamy się tylko na tekście i grafice jak teraz w przypadku GPT-4v, a dochodzą możliwości związane z muzyką i wideo, co już jest możliwe w Gemini. Sam Altman twierdzi, że różnica między GPT5 a GPT4 będzie podobnej skali jak GPT4 i GPT3.5. Biorąc pod uwagę fakt, że mówimy o modelach generycznych, mających tak szerokie zastosowania, jest to całkiem znaczna skala ulepszenia jakości rozwiązania.

Sporo dzieje się również w świecie open-source. Do pewnego momentu głównym standardem dla budowania rozwiązań LLM własnymi siłami w organizacjach, opierając się o częściowo otwarte rozwiązania, była LLama przygotowana przez Meta. Ostatnio pojawiło się sporo ciekawych alternatyw, zaczynając od Mixtral, open-source wersje Mistral, poprzez udostępnienie Groka, rozwiązania od X Elona Muska. Mocne uderzenie nastąpiło w tym tygodniu, gdy Databricks ogłosił DBRX.

W porównaniach Databricks wskazuje najwyższą skuteczność LLM w porównaniu do pozostałych open-source modeli językowych. Zarówno z zadaniach związanych z rozumieniem języka naturalnego, matematyki jak i programowania pokonuje LLamę, Mixtrala oraz Groka. Co ciekawe, Databricks wytrenował model w ciągu tylko 2 miesięcy przeznaczając na to relatywnie niewielką kwotę 10 mln $. Nie jest to zresztą pierwszy model od Databricks, już rok temu firma udostępniła dwie wersje modelu Dolly. Modelu o tyle ciekawego, że Databricks udostępnił cały zestaw danych treningowych oraz kod do wykonania treningu, do odtworzenia stworzenia analogicznego modelu na swoich zasobach. Jego jakość już na ten moment odbiega od najlepszych rozwiązań, jest to jednak też kwestia skali, a wytrenowanie samemu podobnego modelu na pewno jest ciekawym ćwiczeniem dla każdego zainteresowanego tematem.

Było to ciekawe rozwiązanie, pokazujące również różnice między modelami open-source. Czym bowiem jest open-source w przypadku LLM? Każdy z wymienionych modeli jest przedstawiany jako rozwiązanie otwarte. Gdy zainteresujemy się szczegółami, nie jest jednak tak różowo.

Jednym z często spotykanych scenariuszy wykorzystania modeli LLM jest przygotowanie danych w celu wytrenowania innego modelu. Przykładowo – mamy w organizacji zbiór pytań zadawanych przez użytkowników i odpowiedzi konsultantów. Powiększamy go, poprzez sztuczne przygotowanie danych modelem LLM, a następnie dotrenowujemy inny model tak przygotowanym zestawem danych. Skoro wymienione modele są open-source, to czy możemy je w takim scenariuszu wykorzystać?

Okazuje się, że odpowiedź brzmi nie. Zarówno Databricks w przypadku DBRX jak i Meta w LLama umieściły w ramach licencji zapis „“v. You will not use the Llama Materials or any output or results of the Llama Materials to improve any other large language model (excluding Llama 2 or derivative works thereof).”” Czyli jeśli chcielibyśmy w taki sposób poprawić jakoś GPT-4 działającego na naszych danych, niestety nie jest to zgodne z licencją.

Podobnie wygląda to w przypadku kosztów wymienionych w licencjach. Oba rozwiązania są możliwe do wykorzystania komercyjnego, ale nie bez limitu. Ten limit jest wysoki, bo to aż 700 milionów użytkowników miesięcznie, ale jednak istnieje. Najbardziej otwartym rozwiązaniem jest Dolly: w jej ramach Databricks nie ogranicza dotrenowywania innych modeli, nie ustala limitów użytkowników. Dodatkowo, udostępnił nie tylko wagi modelu i sam model jak w przypadku DBRX, ale również dane treningowe i skrypt do trenowania modelu. Niestety, skuteczność Dolly jest już w porównaniu do innych modeli na tyle słaba, że nie jest już nawet uwzględniany w ramach Areny Botów.

Źródła: