
Czy halucynacje modeli AI są powodowane przez benchmarki? Jak twierdzą badacze z OpenAI, tak jest przynajmniej w części. Choć halucynacje są nierozerwalnie związane z tym, jak działają duże modele językowe, to tak zwany proces dostrajania powinien je istotnie redukować. Niestety, konstrukcja najczęściej używanych benchmarków sprawia, iż modele wolą zgadywać odpowiedź niż przyznać, iż jej nie znają.
Wrodzona wada modeli językowych
Skąd biorą się halucynacje modeli językowych AI? Przede wszystkim stąd, jak te modele są zbudowane. Przez modele w fazie wstępnego treningu (pre-training) przepuszczane są olbrzymie ilości tekstu i model w jakimś stopniu „zapamiętuje” teksty, na których się uczył.
Potem, w fazie wnioskowania (inference) stara się odtwarzać teksty wcześniej widziane. Token po tokenie dodaje kolejne fragmenty odpowiedzi, na podstawie tego, co wydaje mu się najbardziej prawdopodobne na podstawie tekstów, które wcześniej widział. jeżeli temperatura modelu jest ustawiona na 0, to poda zawsze najbardziej prawdopodobny token. jeżeli jest wyższa, to losowo wybierze jeden z najbardziej prawdopodobnych tokenów. jeżeli więc mamy tekst „Warszawa jest”, to model losowo wybierze sobie następne słowo z takich słów jak „stolicą”, „metropolią”, „miastem” itp.
Problem pojawia się, jeżeli model z jakimś faktem w fazie wstępnego treningu spotkał się kilka razy, bądź nie spotkał się wcale. Wtedy nie ma wystarczającej reprezentacji tego faktu i zapytany o niego… wybiera tokeny z olbrzymiej puli równie mało prawdopodobnych opcji. Innymi słowy – halucynuje.
Jest to oczywiście problem i to znany od dawna. Problem, który powinien być eliminowany w kolejnych fazach treningu, takich jak dostrajanie, jednak tak się nie dzieje. Czemu? Bo dla deweloperów modeli liczą się wyniki benchmarków a te, jak odnotowują badacze z OpenAI, promują „zgadywankę”.
Halucynacje AI powodowane przez benchmarki?
Jak powinien zachowywać się model zapytany o fakt, na temat którego nie ma wystarczającej wiedzy? Prawdopodobnie najlepiej by było, by po prostu powiedział, iż nie wie. I jest to coś, czego można modeli nauczyć. Problem polega na tym, iż najpopularniejsze benchmarki nie promują takiego zachowania modelu.
Benchmarki to po prostu zestaw zadań, na które ma odpowiedzieć model. jeżeli model odpowie prawidłowo, to dostaje punkt, jeżeli nieprawidłowo lub odpowie, iż nie wie, to dostaje zero punktów. jeżeli model nie zna odpowiedzi, to zgadując ma niewielką, ale jednak szansę na prawidłową odpowiedź, za to mówiąc, iż nie wie ma zagwarantowane zero punktów. W ten sposób modele rzetelnie informujące o swojej niewiedzy są penalizowane za uczciwość.
Jak można sobie z tym poradzić? Na przykład wprowadzając ujemne punkty za nieprawidłowe odpowiedzi. Niektóre benchmarki już wprowadziły takie zmiany. Jednak nie te najpopularniejsze.
„Powszechnie stosowane benchmarki oparte na dokładności odpowiedzi muszą zostać zaktualizowane tak, aby ich system punktacji zniechęcał do zgadywania. jeżeli główne rankingi przez cały czas będą nagradzać szczęśliwe strzały, modele będą się dalej uczyć zgadywania. Naprawienie rankingów może poszerzyć zastosowanie technik redukcji halucynacji, zarówno nowo opracowanych, jak i pochodzących z wcześniejszych badań” – napisali badacze OpenAI.
Jak odnotowują badacze, nigdy nie osiągniemy stanu, w którym modele będą w stanie odpowiedzieć prawidłowo na wszystkie pytania. Jednak powinniśmy je nauczyć, jak nie opowiadać nam bzdur i w zamian – żeby umiały poinformować nas o swojej niewiedzy.