Koniec z teoretycznymi testami AI? Samsung wprowadza TRUEBench do oceny zadań biznesowych

itreseller.com.pl 2 miesięcy temu

Samsung zaprezentował TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark) – porównywarkę, która ma na celu rzetelną ocenę produktywności dużych modeli językowych w rzeczywistych zastosowaniach biznesowych. Narzędzie uwzględnia złożone, wielojęzyczne scenariusze i jest odpowiedzią na ograniczenia istniejących testów sztucznej inteligencji.

Wraz z rosnącą popularnością AI w przedsiębiorstwach, pojawiła się potrzeba mierzenia jej realnego wpływu na produktywność. Istniejące benchmarki często koncentrują się na ogólnej wydajności w języku angielskim i ograniczają się do odpowiedzi na pojedyncze pytania, ignorując szerszy kontekst. Aby zaradzić tym problemom, dział Samsung Research opracował TRUEBench.

Nowa porównywarka ocenia typowe zadania realizowane w firmach, takie jak generowanie treści, analiza danych, streszczanie i tłumaczenie tekstów, w podziale na 10 kategorii i 46 podkategorii. Co istotne, TRUEBench jest narzędziem wielojęzycznym – łącznie zaimplementowano w nim 2485 zestawów testowych w 12 językach, w tym polskim, angielskim, niemieckim i chińskim. Zestawy testowe odzwierciedlają realne zadania, mając długość od 8 do ponad 20 tysięcy znaków – od prostych zapytań po streszczenia długich dokumentów.

Kluczowym elementem TRUEBench jest unikalny system oceny. Kryteria poprawności odpowiedzi są opracowywane w trybie interakcji między ludźmi a sztuczną inteligencją. Zespół specjalistów tworzy początkowe wytyczne, które następnie są weryfikowane przez AI pod kątem błędów i sprzeczności. Ten cykl powtarza się wielokrotnie, co prowadzi do stworzenia precyzyjnych i obiektywnych standardów oceny, minimalizując subiektywne uprzedzenia.

“Samsung Research wnosi do przedsięwzięcia przewagę konkurencyjną wynikającą z głębokiej wiedzy specjalistycznej i praktycznego doświadczenia w sztucznej inteligencji” – powiedział Paul (Kyungwhoon) Cheun, Dyrektor ds. Technologii w dziale Digital Experience spółki Samsung Electronics i Dyrektor Samsung Research. – “Oczekujemy, iż TRUEBench ustanowi standardy oceny produktywności sztucznej inteligencji i umocni pozycję Samsung jako lidera technologicznego”.

Próbki danych i tabele wyników z porównywarki są publicznie dostępne na platformie open-source Hugging Face. Użytkownicy mogą tam kompleksowo porównać sprawność do pięciu modeli AI i zobaczyć wyniki na łatwych do zinterpretowania wykresach.

Idź do oryginalnego materiału