W znanym, darmowym zbiorze danych wykorzystywanym do szkolenia generatywnych AI, badacze ze Stanford odkryli ponad 1000 obrazów zawierających treści pedofilskie. Ten konkretny zbiór danych, znany jako LAION-5B, służy jako podstawa do uczenia modeli sztucznej inteligencji, które potem tworzą bardzo realistyczne obrazy.
Pojawienie się technologii generatywnej sztucznej inteligencji doprowadziło do sytuacji, w której narzędzia te są reklamowane na forach internetowych odwiedzanych przez pedofilów jako sposób na tworzenie nieocenzurowanych i wyraźnych obrazów przemocy wobec dzieci. Obecność w danych szkoleniowych znacznej liczby realnych zdjęć przedstawiających wykorzystywanie małoletnich umożliwia generującym obrazy AI lepsze odwzorowanie treści pedofilskich, mocno przypominających rzeczywiste przypadki wykorzystywania dzieci.
[Te zdjęcia] zasadniczo dają modelowi [AI] przewagę w możliwości tworzenia treści przedstawiających wykorzystywanie dzieci w sposób, który może przypominać napastowanie prawdziwych małoletnich — powiedział David Thiel, autor raportu i główny technolog w Stanford’s Internet Observatory.
W odpowiedzi na te ustalenia administratorzy LAION tymczasowo usunęli zbiór danych LAION-5B, aby, przed ponownym udostępnieniem, upewnić się, iż jest on bezpieczny.
Posiadanie zbioru danych zawierającego treści pedofilskie może być w Polsce ścigane przez odpowiednie organy
Raport podkreśla również zmianę w rozumieniu tego, w jaki sposób narzędzia AI generują treści związane z wykorzystywaniem dzieci. Wcześniej uważano, iż modele sztucznej inteligencji łączyły elementy koncepcyjne w celu stworzenia budzących zastrzeżenia obrazów. Nowe informacje sugerują jednak, iż do udoskonalania wyników sztucznej inteligencji wykorzystywane są rzeczywiste obrazy, dzięki czemu stworzone przez AI wydają się niepokojąco autentyczne.
Thiel zaznaczył potrzebę opracowania odpowiednich protokołów w celu sprawdzania i eliminowania z baz danych treści związanych z wykorzystywaniem dzieci i pornografią. Zasugerował również, aby szkoleniowe zbiory danych były bardziej przejrzyste dzięki ujawnianiu ich zawartości i wdrożeniu takich metod uczenia modeli sztucznej inteligencji, aby „zapominały” one, jak wygenerować obrazy zawierające treści pedofilskie.
Sama identyfikacja obrazów zawartych w bazie nie była niczym skomplikowanym, po prostu ktoś musiał to zrobić. Badacze przeskanowali zbiór danych w poszukiwaniu „hashy” zdjęć — określonych fragmentów kodu, które służą jako identyfikatory i są przechowywane na internetowych listach obserwacyjnych prowadzonych przez organizacje takie jak National Center for Missing and Exploited Children i Canadian Center for Child Protection.
Źródło: The Washington Post, Stanford