Maszyny patrzą jak my? Sztuczna inteligencja uczy się ludzkiego spojrzenia bez pomocy człowieka

instalki.pl 1 tydzień temu

Czy maszyny mogą patrzeć jak my? Czy sztuczna inteligencja może nauczyć się rozpoznawać i analizować obrazy w sposób tak naturalny jak człowiek? Te pytania od lat elektryzują naukowców i inżynierów. Najnowsze badania zespołu z Uniwersytetu w Osace pokazują, iż odpowiedź może być twierdząca.

Okazuje się, iż specjalny typ modelu uczenia maszynowego — Vision Transformers (ViTs) — potrafi samodzielnie nauczyć się ludzkich wzorców uwagi wzrokowej. Co najważniejsze, osiąga to bez jakiejkolwiek ingerencji człowieka, bez opisu danych czy wskazówek, które zwykle są potrzebne do szkolenia modeli AI.

Jak uczą się Vision Transformers?

Naukowcy wykorzystali metodę samo uczenia znaną jako DINO (self-distillation with no labels). Ten sposób szkolenia pozwala sztucznej inteligencji analizować ogromne ilości danych wizualnych bez konieczności ich wcześniejszego etykietowania. Model przetwarza obrazy i samodzielnie „odkrywa” struktury i elementy, które pojawiają się często i są znaczące. W badaniach porównano zachowania modeli ViTs trenowanych DINO z rzeczywistymi danymi z badań śledzenia wzroku (eye-tracking), uzyskanych od dorosłych osób oglądających dynamiczne sceny wideo.

Wyniki? Zadziwiająco zbieżne. Modele ViTs wykazywały uwagę skoncentrowaną na elementach, które są typowe dla ludzkiego postrzegania – twarzach, ruchomych postaciach, krawędziach obiektów. W przeciwieństwie do modeli trenowanych nadzorowanie, które często wybierały przypadkowe lub nieistotne fragmenty obrazu, DINO potrafił „patrzeć” jak człowiek.

Twarze, figury, tło – segmentacja wzrokowa jak u ludzi

Jednym z najbardziej interesujących aspektów badania było to, iż DINO-ViTs naturalnie stworzyły „klastry uwagi”. Część modelu zaczęła koncentrować się na twarzach, inna na konturach postaci, a jeszcze inna na tle. Jest to zadziwiająco podobne do tego, jak działa ludzki system wzrokowy — automatycznie segregujemy sceny na ważne i mniej istotne elementy.

To niesamowite, iż model, który nigdy nie dostał informacji, czym jest twarz, potrafił nauczyć się jej rozpoznawania” — mówi prof. Shigeru Kitazawa, współautor badania. „To pokazuje, iż AI może odkrywać podstawowe zasady percepcji bez nadzoru człowieka.” Taki podział sugeruje, iż klasyczny model percepcji w psychologii — oparty na rozróżnieniu figury i tła — może być rozwinięty o trzeci składnik: „funkcjonalne skupienie”, które pojawia się spontanicznie również w sztucznej inteligencji.

Porównanie współrzędnych wzroku pomiędzy uczestnikami badania, a głowami uwagi transformatorów wzroku (ViT) / Źródło: sciencedirect.com

Praktyczne zastosowania: od robotyki po edukację

Wyniki te mogą mieć ogromne znaczenie w wielu dziedzinach. Na przykład, w robotyce humanoidalnej zdolność do intuicyjnego skupiania wzroku na twarzach czy gestach pozwalałaby tworzyć maszyny bardziej „ludzkie” i lepiej reagujące na otoczenie. W edukacji i rozwoju dzieci, takie technologie mogłyby być wykorzystywane do monitorowania skupienia uwagi lub wspierania rozwoju poznawczego.

W medycynie ViTs mogłyby wspomagać diagnostykę obrazową, „patrząc” na zdjęcia rentgenowskie czy MRI w sposób bardziej zbliżony do ludzkiego specjalisty. W obszarze mediów i rozrywki możliwe byłoby tworzenie systemów lepiej analizujących emocje odbiorców — np. dostosowujących treść reklamy do emocjonalnego odbioru.

Zespół z Osaki zapowiada kontynuację prac. Celem jest zintegrowanie tych ViTs z innymi modalnościami – mową, tekstem, gestami – co pozwoliłoby stworzyć w pełni „ludzkie” modele AI. W połączeniu z dużymi modelami językowymi, jak ChatGPT, systemy te mogłyby dostrzegać, analizować i rozumieć świat w sposób bardzo zbliżony do naszego.

Badacze podkreślają też znaczenie samouczenia się. To dzięki niemu modele nie wymagają kosztownych danych etykietowanych, a jednocześnie osiągają bardzo wysokie rezultaty. „Zadziwiające, jak wiele można osiągnąć, gdy pozwolimy modelowi odkrywać świat samodzielnie” — podsumowuje główny autor badania, Takuto Yamamoto.

AI, które widzi i słyszy – łączy obraz z dźwiękiem bez pomocy człowieka
AIRobotysztuczna inteligencja
Idź do oryginalnego materiału