Kilka miesięcy temu mój lekarz pokazał narzędzie do transkrypcji oparte na sztucznej inteligencji, którego używał do nagrywania i podsumowywania spotkań z pacjentami. W moim przypadku podsumowanie było w porządku, ale badacze cytowani przez Wiadomości ABC odkryli, iż nie zawsze tak jest w przypadku Whisper OpenAI, który stanowi podstawę narzędzia używanego w wielu szpitalach — czasami po prostu zmyśla.
Szept jest używany przez firmę zwany Nablą w przypadku narzędzia do transkrypcji medycznej, które według szacunków przepisało 7 milionów rozmów medycznych Wiadomości ABC. Jak podaje outlet, korzysta z niego ponad 30 000 lekarzy i 40 systemów opieki zdrowotnej. Według doniesień Nabla jest świadoma, iż Whisper może mieć halucynacje, i „zajmuje się tym problemem”.
Grupa badaczy z Cornell University, University of Washington i innych znalezione w badaniu ten Whisper miał halucynacje w około 1 procentach transkrypcji, tworząc całe zdania zawierające czasami gwałtowne uczucia lub bezsensowne frazy podczas ciszy w nagraniach. Naukowcy, którzy w ramach badania pobrali próbki dźwięku z AphasiaBank TalkBank, zauważyli, iż cisza jest szczególnie powszechna, gdy mówi osoba cierpiąca na zaburzenie językowe zwane afazją.
Jedna z badaczek, Allison Koenecke z Cornel University, zamieściła przykłady takie jak ten poniżej w: wątek o studiach.
Naukowcy odkryli, iż halucynacje obejmowały także wymyślone schorzenia lub wyrażenia, których można się spodziewać po filmie na YouTube, np. „Dziękujemy za obejrzenie!” (OpenAI podobno używane do transkrypcji ponad milion godzin YouTube filmy do szkolenia GPT-4.)
Badanie było zaprezentowany w czerwcu na konferencji Association for Computing Machinery FAccT w Brazylii. Nie jest jasne, czy został poddany recenzji.
Rzeczniczka OpenAI, Taya Christianson, przesłała oświadczenie e-mailem na adres: Krawędź:
Traktujemy tę kwestię poważnie i stale pracujemy nad udoskonaleniami, w tym nad redukcją halucynacji. W przypadku korzystania z Whisper na naszej platformie API nasze zasady użytkowania zabraniają używania w niektórych kontekstach podejmowania decyzji o wysokiej stawce, a nasza karta modelowa do użytku z otwartym kodem źródłowym zawiera zalecenia dotyczące używania w domenach wysokiego ryzyka. Dziękujemy badaczom za podzielenie się swoimi odkryciami.