21.12.2023

Naj w AI #4 Poradnik prompt engineering i przerwa świąteczna w wykonaniu LLM

AUTOR: Maciej Rubczyński – Head of Development | Big Data & AI Solutions Architect w TIDK

Świat AI i Gen AI rozwija się w niesamowitym tempie. Codziennie pojawiają się nowe artykuły, rozwiązania i informacje z tematyki Sztucznej Inteligencji. W „Naj w AI” podsumowuje subiektywnie wybrane nowości i artykuły z AI i Gen AI.

Korzystając z różnych modeli językowych nie sposób nie docenić istotności formułowania odpowiednich zapytań, promptów, do wykorzystywanych modeli. Umiejętność prawidłowego napisania promptu jest kluczowa zarówno w modelach językowych jak i w modelach generowania obrazu. Do tego stopnia, że pojawiły się nawet potrzeby tworzenia nowego stanowiska, prompt engineer, którego jedynym zadaniem jest odpowiednie napisanie takich zapytań. Być może najczęściej używany język zapytań w przyszłości to będzie język naturalny, angielski, polski.

W ostatnich dniach OpenAI opublikował bardzo szczegółowy poradnik pisania poprawnych propmtów. Identyfikują w nim sześć kluczowych strategii kluczowych do osiągania lepszych rezultatów: przejrzystość instrukcji, wymaganie źródeł, podzielenie złożonych zadań na mniejsze części, wskazywanie konieczności pokazania procesu myślenia nad odpowiedzią „chain of thought”, używanie narzędzi i źródeł zewnętrznych (Retrieval augmented generation) oraz systematyczne testowanie zmian. W celu zastosowania tych taktyk OpenAI wskazuje konkretne kroki, takie jak dopytywanie modelu czy jest pewien swojej odpowiedzi, skupianie się na głównej intencji użytkownika. Całość zdecydowanie kluczowa do zapoznania się dla każdego korzystającego z rozwiązań Gen AI.

W momencie, kiedy będziemy chcieli przetestować taktyki i porównać odpowiedzi uzyskiwane na ich podstawie z różnych modeli, świetnym miejscem jest Chatbot Arena, dostępna na stronie chat.lmsys.org. Umożliwia ona zarówno porównanie jednego z dwudziestu dostępnych modeli, jak i pozwala na wykonanie zapytania i uzyskanie odpowiedzi z dwóch modeli, a następnie głosowanie na lepszą odpowiedź, bez wiedzy o tym z jakich modeli pochodzą. Dzięki temu uzyskujemy ranking tworzony w klarowny i bezstronny sposób przez korzystających z Areny użytkowników. Aktualnie najwyższe miejsca w rankingu okupuje GPT-4, wspominany w ostatnich artykułach Gemini Ultra nie jest jeszcze możliwy do przetestowania.

W okresie świątecznym w kontekście ChatGPT sporą popularność zdobyła ostatnio hipoteza o przerwie zimowej modeli LLM, „AI Winter Break”. Niektórzy użytkownicy ChatGPT zauważyli, że od kiedy zaczął się grudzień, modele zaczęły generować mniej kompleksowe odpowiedzi, stały się trochę leniwe. Hipoteza zakładała, że skoro modele uczone są na zachowaniach użytkowników, to i w grudniu. gdy większość ludzi myśli bardziej o świętach i wolnym a mniej skupia się na pracy, AI miało skopiować takie podejście i mniej starać się przy udzielanych odpowiedziach. Na potwierdzenie tego podejrzenia pojawiły się również badania wskazujące, że długość odpowiedzi generowanych przez ChatGPT w grudniu w porównaniu do analogicznych pytań z marca jest znacznie krótsza. Doprowadziło to do odpowiedzi OpenAI, które zasygnalizowało, że żadne zmiany ostatnio nie były wprowadzane i nie jest to pożądane zachowanie. Hipoteza okazała się jednak nieprawdziwa, wstępne badania wykonane zostały przy błędnych założeniach i okazuje się, że modele przerwy nie praktykują 😊

Źródła: