Historyk tonący w dokumentach źródłowych zwraca się do AI

cyberfeed.pl 3 miesięcy temu


Podobnie jak miliony innych osób, pierwszą rzeczą, jaką Mark Humphries zrobił z ChatGPT po jego premierze pod koniec 2022 r., było poproszenie go o wykonanie sztuczek salonowych, takich jak pisanie wierszy w stylu Boba Dylana – co choć robiło wrażenie, nie wydawało się szczególnie przydatne dla niego historyka badającego XVIII-wieczny handel futrami. Jednak Humphries, 43-letni profesor na Uniwersytecie Wilfrida Lauriera w Waterloo w Kanadzie, od dawna interesował się zastosowaniem sztucznej inteligencji w swojej pracy. Korzystał już ze specjalistycznego narzędzia do rozpoznawania tekstu, przeznaczonego do transkrypcji przestarzałych pism i krojów pisma, choć popełniało ono częste błędy, których poprawianie wymagało czasu. Zaciekawiony, wkleił zniekształconą interpretację odręcznego francuskiego listu do ChatGPT. AI poprawiła tekst, poprawiając wszystkie litery F, które zostały błędnie odczytane jako S, a choćby dodając brakujące akcenty. Następnie Humphries poprosił ChatGPT o przetłumaczenie go na angielski. Tak też się stało. Może, pomyślał, ta rzecz mimo wszystko okaże się przydatna.

Dla Humphriesa narzędzia AI niosły ze sobą kuszącą obietnicę. W ciągu ostatniej dekady miliony dokumentów w archiwach i bibliotekach zostały zeskanowane i zdigitalizowane — Humphries sam brał udział w jednym z takich działań — ale ponieważ ich duża różnorodność formatów, czcionek i słownictwa uniemożliwiała ich automatyczne wyszukiwanie, praca z nimi wymagała zdumiewającą ilość badań ręcznych. W ramach poprzedniego projektu Humphries zebrał biografie kilkuset zszokowanych żołnierzy I wojny światowej na podstawie różnorodnych dokumentacji medycznych, dzienników wojennych, gazet, akt personalnych i innych efemeryd. Czytanie, oznaczanie i porównywanie materiałów w przypadku każdej osoby wymagało lat pracy zespołu asystentów badawczych. Pomyślał, iż gdyby nowe modele językowe były tak potężne, jak się wydawało, możliwe byłoby po prostu przesłanie całego materiału i poproszenie modelu o wydobycie wszystkich dokumentów związanych z każdym żołnierzem, u którego zdiagnozowano wstrząs artyleryjski.

„To praca na całe życie, a przynajmniej na dekadę” – powiedział Humphries. „I możesz sobie wyobrazić, iż można to zwiększyć. Można by pozyskać sztuczną inteligencję, która ustaliłaby, czy żołnierz został ranny w dniu X, co działo się z tą jednostką w dniu X, a następnie uzyskać dostęp do informacji o członkach tej jednostki, na które jako historycy nigdy nie mielibyście czasu. ścigać indywidualnie” – powiedział. „Może otworzyć nowe sposoby rozumienia przeszłości”.

Ulepszone zarządzanie bazami danych może być dalekie od podboju świata superinteligencji, jak niektórzy przewidują, ale jest charakterystyczne dla sposobu, w jaki modele językowe filtrują świat rzeczywisty. Z prawo Do programowanie Do dziennikarstwoprofesjonaliści próbują dowiedzieć się, czy i jak włączyć tę obiecującą, ryzykowną i bardzo dziwną technologię do swojej pracy. Dla historyków technologia zdolna do syntezy całych archiwów, która ma również skłonność do fabrykowania faktów, jest zarówno atrakcyjna, jak i przerażająca, a dziedzina ta, podobnie jak wiele innych, dopiero zaczyna zmagać się z konsekwencjami tak potencjalnie potężnego, ale niepewnego zjawiska. narzędzie.

Według Cindy Ermus, profesor historii na Uniwersytecie Teksasu w San Antonio, podczas 137. dorocznego spotkania Amerykańskiego Towarzystwa Historycznego w zeszłym miesiącu sztuczna inteligencja wydawała się być wszędzie. Przewodniczyła jednemu z kilku paneli na ten temat. Ermus opisała stosunek ją i wielu jej kolegów do sztucznej inteligencji jako „ciekawskie dzieci”, zastanawiające się zarówno z podekscytowaniem, jak i ostrożnością, jakie aspekty ich pracy to zmieni i w jaki sposób. „To zmieni każdą część badań historycznych, od gromadzenia, przez kuratorowanie, po pisanie i oczywiście nauczanie” – powiedziała. Szczególne wrażenie wywarła na niej prezentacja Katherine McDonough, wykładowczyni Uniwersytetu w Lancaster, przedstawiająca program uczenia maszynowego umożliwiający przeszukiwanie map historycznych, początkowo przeszkolony w zakresie badań uzbrojenia w XIX-wiecznej Wielkiej Brytanii.

„To przekształci każdą część badań historycznych, od gromadzenia, przez kuratorowanie, po pisanie i oczywiście nauczanie”.

„Wyszukała słowo „restauracja” i wyświetliło słowo „restauracja” na tonach map historycznych na przestrzeni lat” – powiedział Ermus. „Dla niehistoryka może to nie wydawać się wielkim problemem, ale nigdy wcześniej nie byliśmy w stanie tego zrobić, a teraz mamy to na wyciągnięcie ręki”.

Inna uczestniczka, Lauren Tilton, profesor sztuk wyzwolonych i humanistyki cyfrowej na Uniwersytecie w Richmond, od ponad dziesięciu lat pracuje nad uczeniem maszynowym, a ostatnio współpracowała z Biblioteką Kongresu nad zastosowaniem wizji komputerowej do ogromnego zbioru minimalnie oznakowanych zdjęć tej instytucji i filmy. Wszystkie archiwa są stronnicze – co do tego, od czego materiał jest przechowywany i jak jest on zorganizowany. Obietnica sztucznej inteligencji, dodała, polega na tym, iż może otwierać archiwa na dużą skalę i umożliwiać przeszukiwanie ich w poszukiwaniu rzeczy, których archiwiści w przeszłości nie cenili na tyle, by je nazwać.

„Najczęściej opisywanymi materiałami w archiwum są zwykle głosy, które słyszeliśmy już wcześniej – sławni politycy, sławni autorzy” – stwierdziła. „Wiemy jednak, iż istnieje wiele historii napisanych przez osoby ze społeczności mniejszościowych, społeczności kolorowych i społeczności LGBTQ, które trudno było opowiedzieć nie dlatego, iż ludzie nie chcieli, ale ze względu na trudności związane z przeszukiwaniem archiwum”.

Systemy AI mają jednak swoje własne uprzedzenia. Mają dobrze udokumentowaną tendencję do odzwierciedlania uprzedzeń związanych z płcią, rasą i innymi informacjami ze swoich treningów — fakt, że, jak zauważyła Ermus, kiedy poprosiła GPT-4 o stworzenie wizerunku profesora historii, narysowała starszą osobę biały mężczyzna z łatami na łokciach na marynarce – ale wykazują także uprzedzenia, które Tilton nazywa „prezentyzmem”. Ponieważ zdecydowana większość danych szkoleniowych jest pobierana ze współczesnego Internetu, modele odzwierciedlają współczesny światopogląd. Tilton zetknęła się z tym zjawiskiem, gdy odkryła, iż ​​systemy rozpoznawania obrazów mają trudności ze zrozumieniem starszych zdjęć, na przykład oznaczając maszyny do pisania jako komputery, a przyciski do papieru jako myszy. Były to systemy rozpoznawania obrazu, ale modele językowe mają podobny problem.

Będąc pod wrażeniem ChatGPT, Humphries zarejestrował się w OpenAI API i postanowił zostać asystentem ds. badań nad sztuczną inteligencją. Próbował wyśledzić XVIII-wiecznych handlarzy futrami w gąszczu listów, dzienników, aktów małżeństwa, dokumentów prawnych, akt parafialnych i umów, w których pojawiały się one jedynie przelotnie. Jego celem było zaprojektowanie systemu, który mógłby zautomatyzować proces.

Jednym z pierwszych wyzwań, jakie napotkał, było to, iż XVIII-wieczni handlarze futrami nie brzmią tak, jak zakłada model językowy

Jednym z pierwszych wyzwań, jakie napotkał, było to, iż XVIII-wieczni handlarze futrami nie brzmią tak, jak zakłada model językowy. Poproś GPT-4 o napisanie przykładowego wpisu, tak jak ja, a wywoła on długie refleksje na temat wzniosłej samotności dzikiej przyrody, takie jak: „Dziś rano niebo rzeczywiście się otworzyło i towarzyszyła uporczywa mżawka, pokrywając las mgłą”. zasłona mgły i melancholii” oraz „Bruno, który stawiał czoła wszelkim trudnościom ze stoicyzmem doświadczonego leśnika, teraz leżał nieruchomo pod osłoną naszego prowizorycznego namiotu, co stanowi nieme świadectwo kruchości życia na tych nieujarzmionych ziemiach”.

Podczas gdy prawdziwy handlarz futrami byłby znacznie bardziej zwięzły. Na przykład „Ładna pogoda. Dziś rano młody człowiek, który zmarł wczoraj, został pochowany, a jego grób otoczono pikietami. 9 Mężczyźni poszli zbierać gumę, którą przywieźli do Gum. 3 Czółna, pozostali byli zatrudnieni jak wczoraj” – jak napisał jeden z nich w 1806 r., odnosząc się do zbierania soku z drzew w celu uszczelniania szwów swoich łodzi z kory.

„Problem polega na tym, iż model językowy nie wychwyciłby takiego zapisu, ponieważ nie zawiera on takiego rodzaju pisma refleksyjnego, jakiego nauczono go postrzegać jako reprezentatywny dla takiego wydarzenia” – stwierdził Humphries. Wytrenowany na współczesnych wpisach i esejach na blogach, spodziewał się, iż po śmierci towarzysza następują długie emocjonalne wspomnienia, a nie spis zapasów soków.

Dostosowując model na podstawie setek przykładów prozy handlarzy futrami, Humphries zdołał wyciągnąć wpisy do dziennika w odpowiedzi na pytania, ale nie zawsze istotne. Przestarzałe słownictwo przez cały czas stanowiło problem — słowa takie jak Varangafrancuskie określenie żebra kajaka, które rzadko pojawiało się w danych treningowych modelu, jeżeli w ogóle.

Po wielu próbach i błędach stworzył linię montażową sztucznej inteligencji wykorzystującą wiele modeli do sortowania dokumentów, wyszukiwania ich pod kątem słów kluczowych i znaczenia oraz syntezy odpowiedzi na zapytania. Zajęło to dużo czasu i mnóstwo majsterkowania, ale GPT pomogło mu nauczyć się Pythona, którego potrzebował. Nazwał system HistoryPearl, na cześć swojego najmądrzejszego kota.

Testował swój system na skrajnych przypadkach, jak norweski handlarz Ferdinand Wentzel, który pisał o sobie w trzeciej osobie i posługiwał się dziwnym poczuciem humoru, na przykład pisząc o narodzinach syna, spekulując na temat jego ojcostwa i dokonując samokrytyki. potępiając żarty na temat własnego wzrostu — „Dziewczyna FW bezpiecznie urodziła chłopca. – Prawie wierzę, iż to jego Syn, gdyż jego rysy wydają się do niego podobne, a krótkie nogi zdają się bez wątpienia potwierdzać tę opinię. Ten rodzaj pisarstwa utrudniał wcześniejsze modele, ale HistoryPearl mógł go przytoczyć w odpowiedzi na niejasno sformułowane pytanie dotyczące humoru Wentzela, wraz z innymi przykładami dowcipu Wentzla, których Humphries nie szukał.

Narzędzie przez cały czas pomijało pewne elementy, ale działało lepiej niż przeciętny absolwent, którego Humphries zwykle zatrudniał do tego rodzaju pracy. I szybciej. I dużo, dużo taniej. W listopadzie ubiegłego roku, po tym jak OpenAI obniżyło ceny wywołań API, przeprowadził pewne przybliżone obliczenia. To, za co zapłaciłby studentowi około 16 000 dolarów przez całe lato, GPT-4 mógłby zrobić za około 70 dolarów w około godzinę.

„Nadal mówią o technologii, jakby była czymś teoretycznym, bez pełnego zrozumienia, iż ​​stanowi ona bardzo realne, egzystencjalne zagrożenie dla naszej racji bytu jako nauczycieli wyższych”.

„To był moment, w którym zdałem sobie sprawę: «OK, to zaczyna wszystko zmieniać»” – powiedział. Dla mnie jako badacza było to ekscytujące. Dla mnie jako nauczyciela było to przerażające. Organizowanie rejestrów handlu futrami może być aplikacją niszową, ale ogromna liczba stanowisk umysłowych obejmuje podobne zadania związane z zarządzaniem informacjami. Jego uczniowie mieli uczyć się umiejętności prowadzenia badań i myślenia, które pozwolą im odnieść sukces właśnie w tego rodzaju zawodach. W listopadzie opublikował ok biuletyn błagając swoich kolegów ze środowiska akademickiego, aby poważnie potraktowali szybki rozwój sztucznej inteligencji. „Sztuczna inteligencja po prostu zaczyna wyprzedzać wyobraźnię wielu ludzi” – napisał. „Nadal mówią o technologii, jakby była czymś teoretycznym, bez pełnego zrozumienia, iż ​​stanowi ona bardzo realne, egzystencjalne zagrożenie dla naszej racji bytu jako nauczycieli wyższych”.

W międzyczasie jednak był zadowolony, iż jego majsterkowanie zaowocowało czymś, co nazywa „dowodem słuszności koncepcji”: wystarczająco wiarygodnym, aby był potencjalnie użyteczny, choć nie na tyle, aby w pełni mu zaufać. Humphries i jego partnerka badawcza, historyk Lianne Leddy, złożyli wniosek o grant na zwiększenie skali badań do wszystkich 30 000 podróżników znajdujących się w ich bazie danych. W pewnym sensie praca wymagana do opracowania tego systemu oszczędzającego pracę była dla niego pocieszająca. Największe ulepszenia modelu nastąpiły dzięki wprowadzeniu do niego odpowiednich danych, czego mógł dokonać wyłącznie dzięki swojej wiedzy na temat materiału. Ostatnio pomyślał, iż faktycznie może być większe zapotrzebowanie na ekspertów dziedzinowych posiadających umiejętności badawcze i krytycznej oceny, jakich uczą humanistyki. W tym roku będzie prowadził zajęcia z zaprojektowanego przez siebie programu stosowanej generatywnej sztucznej inteligencji, prowadzonego na Wydziale Artystycznym.

„W pewnym sensie jest to stare wino w nowych butelkach, prawda?” powiedział. Podkreślił, iż w połowie XX wieku firmy posiadały ogromne archiwa korporacyjne, w których zatrudnieni byli badacze będący ekspertami nie tylko w przechowywaniu i organizowaniu dokumentów, ale także w samym materiale. „Aby duża część tych danych była użyteczna, potrzebni są ludzie, którzy zarówno potrafią dowiedzieć się, jak trenować modele, jak i, co ważniejsze, którzy rozumieją, co jest dobrą treścią, a co nie. Myślę, iż to uspokajające” – powiedział. „Czy po prostu się oszukuję, to już inne pytanie”.



Source link

Idź do oryginalnego materiału