AI myślące po polsku jest głupsze od zachodniego. To się zmieni

konto.spidersweb.pl 6 godzin temu

Microsoft właśnie ogłosił dwie przełomowe inicjatywy, które mogą fundamentalnie zmienić to, jak europejskie języki – w tym polski – funkcjonują w świecie sztucznej inteligencji.

Po latach dominacji języka angielskiego w Internecie i AI, amerykański gigant technologiczny podejmuje bezprecedensowe działania mające na celu wyrównanie szans językowych w Europie.

Problem, o którym mało kto mówi

Choć tylko 5 proc. światowej populacji mówi po angielsku jako językiem ojczystym, to angielskojęzyczne treści stanowią połowę wszystkich materiałów dostępnych w Internecie. Ta dysproporcja ma istotne konsekwencje dla rozwoju sztucznej inteligencji – modele językowe trenowane są głównie na angielskojęzycznych danych, co oznacza, iż pozostałe języki są traktowane jako drugoplanowe.

Przykład? Model Llama 3.1 osiąga wyniki o 15 punktów procentowych gorsze w języku greckim niż w angielskim, a w przypadku łotewskiego różnica sięga aż 25 punktów procentowych. Gdyby ten model był uczniem, byłby prymusem z angielskiego, średniakiem z greckiego i słabym uczniem z łotewskiego. Ta sama tendencja dotyka wszystkie główne testy wydajności modeli językowych.

Unia Europejska ma 24 oficjalne języki, ale wiele z nich – choćby tych oficjalnych, jak duński, fiński, szwedzki czy grecki – reprezentuje mniej niż 0,6 proc. treści internetowych. Inne, takie jak maltański, irlandzki, estoński, łotewski czy słoweński, są online praktycznie niewidoczne.

Proporcje występowania poszczególnych języków w Internecie

Ekonomiczne konsekwencje językowego wykluczenia

Niedobory językowe w AI mają realne konsekwencje ekonomiczne. Gdy systemy AI nie rozumieją lokalnego języka lub odpowiadają w nim niepoprawnie, ograniczają dostęp do usług i możliwości, hamując zarówno lokalne firmy, jak i szerszy wzrost gospodarczy.

Wyobraźmy sobie właściciela małej firmy na Malcie, który mówi tylko po maltańsku. w tej chwili zaawansowane narzędzia AI do analizy rynku czy generowania treści prawdopodobnie nie działają w jego języku, co ogranicza możliwości wykorzystania AI przez tego przedsiębiorcę. Podobnie polski student z miasta pod Warszawą może mieć trudności ze znalezieniem edukacyjnych zasobów AI w swoim języku, co wpływa na jego możliwości uczenia się.

Komisja Europejska zauważa, iż przełamanie barier językowych na jednolitym rynku mogłoby zwiększyć handel wewnątrz UE choćby o 360 mld euro. Tymczasem tylko 13,5 proc. firm w UE wykorzystuje sztuczną inteligencję.

Promptowanie AI po łotewsku zapewni dużo gorsze rezultaty niż promptowanie po angielsku

Strasburg jako nowe centrum językowej AI

Microsoft postanowił umieścić pracowników z dwóch swoich centrów innowacji w Strasburgu, mieście będącym od wieków skrzyżowaniem kultur, a w tej chwili domem dla kluczowych instytucji europejskich. Te centra mają pomóc rozszerzyć dostępność wielojęzycznych danych dla rozwoju AI, wykorzystując Microsoft Azure, wiedzę techniczną firmy i partnerstwa w całej Europie.

Zespół będzie wspierany przez globalną sieć składającą się z ponad 70 inżynierów Microsoftu, naukowców zajmujących się danymi i specjalistów ds. polityki. kooperacja między Microsoft Open Innovation Center (MOIC), Microsoft AI for Good Lab i Uniwersytetem w Strasburgu sfinansuje także wykształcenie dwóch doktorantów i zapewni do miliona dolarów w kredytach Azure.

MOIC i GitHub będą współpracować z Hugging Face – popularną francusko-amerykańską platformą do rozwoju modeli AI – aby hostować i szeroko udostępnić dane. To rozszerzenie istniejącej współpracy z Hugging Face, dzięki której szeroka gama otwartych modeli w kolekcji tegoż Hugging Face jest dostępna do wdrożenia jednym kliknięciem w katalogu modeli Azure.

Współpraca obejmuje także Common Crawl – jedno z największych darmowych i otwartych repozytoriów danych z przeszukiwania sieci. MOIC sfinansuje prace w Common Crawl, wykorzystując native speakerów do adnotowania i wzbogacania danych w językach europejskich w publicznie dostępnym zbiorze danych Common Crawl.

Technologiczne rozwiązania językowych wyzwań

Więcej danych wielojęzycznych to podstawa, ale potrzebne są też lepsze narzędzia technologiczne i know-how. Wiele języków używa systemów pisma, które w tej chwili stanowią wyzwanie dla modeli pierwotnie zaprojektowanych dla alfabetu łacińskiego. Znaki cyrylicy, alfabet grecki i kursywne pismo arabskie mają różne adekwatności. Gotowe tokenizery często dzielą te systemy pisma w nieoptymalne sposoby, co może zaszkodzić zdolności modelu do nauki długoterminowego kontekstu czy dokładnej pisowni w tych językach.

MOIC i AI for Good Lab będą pracować nad ułatwieniem rozwoju i udostępniania wiedzy, narzędzi i możliwości rozwiązania tych problemów i wzmocnienia europejskich deweloperów. AI for Good Lab opublikuje plan opisujący, jak tworzyć wysokiej jakości zbiory danych językowych i trenować lokalne modele językowe, aby uzyskać więcej wartości z istniejących danych.

Notre Dame – cyfrowa nieśmiertelność dziedzictwa

Drugą wielką inicjatywą Microsoftu jest rozszerzenie programu Culture AI, który od 2019 r. pomaga chronić języki, zabytki i artefakty poprzez cyfrowe repliki i współpracę w zakresie danych. Microsoft cyfrowo zachował już liczne obiekty dziedzictwa kulturowego, w tym Starożytną Olimpię w Grecji, Mont Saint-Michel we Francji, Bazylikę św. Piotra w Rzymie i 80. rocznicę lądowania aliantów na plażach w Normandii.

Jesienią 2025 r. Microsoft rozpocznie pracę z francuskim Ministerstwem Kultury i francuską firmą Iconem nad stworzeniem cyfrowej repliki Notre Dame – nowo odrestaurowanego, 862-letniego gotyckiego arcydzieła Paryża. Katedra, której budowa rozpoczęła się w 1163 r. i trwała prawie 200 lat, ma 128 m długości, a jej bliźniacze wieże wznoszą się na 69 m nad Sekwaną.

Po niszczycielskim pożarze w 2019 r. Notre Dame została ponownie otwarta dla publiczności dopiero pod koniec ubiegłego. Projekt wykorzysta technologię i metody opracowane w zeszłym roku przez Microsoft z Iconem do stworzenia cyfrowego bliźniaka Bazyliki św. Piotra, który oparty był na ponad 400 tyd. zdjęciach i zaawansowanych algorytmach AI, był opracowany we współpracy z Watykanem.

Oprócz projektu Notre Dame Microsoft ogłasza także partnerstwo z Bibliothèque Nationale de France i we współpracy z Iconem digitalizację prawie 1 500 kinematograficznych makiet scenografii z przedstawień w Opera National de Paris między 1800 a 1914 rokiem. Zdigitalizowane makiety scenografii będą udostępnione poprzez interaktywne, edukacyjne doświadczenia i wystawy oraz jako zbiór danych udostępniony na platformie Gallica Bibliothèque Nationale de France dla projektów kulturowej AI i badań.

Microsoft rozpoczyna także nową pracę z Musée des Arts Décoratifs, aby udostępnić publicznie szczegółowe cyfrowe opisy około 1,5 mln artefaktów od średniowiecza do czasów współczesnych. Ten krok umożliwi badaczom historii, historii sztuki i konserwacji dostęp do tych nowych informacji do studiowania i wykorzystywania w swoich własnych badaniach opartych na AI.

40 proc. więcej mocy obliczeniowej

Nowe inicjatywy językowe i kulturowe opierają się na Europejskich Zobowiązaniach Cyfrowych Microsoftu ogłoszonych wcześniej w tym roku. Firma zobowiązała się do rozszerzenia infrastruktury AI i chmury, wzmocnienia odporności cyfrowej i ochrony prywatności danych, zwiększenia cyberbezpieczeństwa oraz wsparcia cyfrowej suwerenności Europy i szerszej gospodarki.

Microsoft ogłosił plany znacznego zwiększenia pojemności swoich centrów danych w Europie – o 40 proc. w ciągu dwóch lat – co ma umożliwić rozwój nowoczesnego ekosystemu sztucznej inteligencji i chmury na kontynencie. Zapowiedziana ekspansja objąć ma 16 państw i doprowadzić do działania ponad 200 centrów danych w latach 2023-2027.

Microsoft deklaruje wsparcie dla europejskiej odporności cyfrowej, choćby w obliczu geopolitycznych turbulencji. Kluczowym posunięciem będzie utworzenie europejskiej rady nadzorczej dla lokalnych centrów danych, składającej się wyłącznie z obywateli UE. Microsoft zapowiada również, iż w przypadku prób ingerencji zewnętrznych rządów w działalność europejskich centrów danych będzie korzystać z pełnego wachlarza środków prawnych, aby chronić interesy swoich europejskich klientów.

W razie konieczności aktywowana zostanie procedura awaryjna z udziałem lokalnych partnerów, którzy będą mogli przejąć operacje, bazując na kopiach zapasowych kodu przechowywanego w bezpiecznym repozytorium w Szwajcarii.

Uniwersytety jako motory zmian

Aby przyspieszyć odpowiedzialne badania nad AI i pomóc w wypełnieniu luki językowej Microsoft rozpoczyna dwie nowe współprace akademickie w Europie na Uniwersytecie w Strasburgu i IE University School of Science & Technology w Hiszpanii. Microsoft AI for Good Lab i MOIC będą współpracować z Uniwersytetem w Strasburgu, aby zapewnić granty Azure na wsparcie wspólnych badań nad AI.

W IE University School of Science & Technology Microsoft AI for Good Lab zapewni granty Azure na wsparcie wspólnych badań ukierunkowanych na języki o niskich zasobach, w tym wsparcie dla powiązanych projektów mających na celu przyspieszenie nowych rozwiązań skoncentrowanych na języku i AI.

Współpraca z ICube Laboratory na Uniwersytecie w Strasburgu – instytucją zajmującą się inżynierią, informatyką i obrazowaniem – będzie wspierać szkolenia AI poprzez umieszczenie personelu z Microsoft Open Innovation Center i AI for Good Lab w Strasburgu.

61 proc. Polaków używa AI w pracy

Dane z najnowszego, czwartego już raportu Microsoft Work Trend Index wskazują, iż AI przekształca nie tylko sposób wykonywania pracy, ale rynek pracy w ogóle. Aż 61 proc. pracowników w Polsce używa generatywnej sztucznej inteligencji na co dzień. Blisko 70 proc. liderów uważa, iż ich firma musi wdrożyć sztuczną inteligencję, aby pozostać konkurencyjną. Użytkownicy AI w Polsce są aż o 149 proc. bardziej skłonni do eksperymentowania z różnymi sposobami korzystania ze sztucznej inteligencji.

Większość wiodących firm w dziedzinie sztucznej inteligencji to firmy amerykańskie lub chińskie, choć Europa ma pewne wyjątki, takie jak francuski Mistral czy francusko-amerykańska platforma Hugging Face. Oprócz Microsoftu niektóre europejskie inicjatywy, takie jak TildeLM, starają się rozwijać modele sztucznej inteligencji w językach lokalnych.

Inicjatywy Microsoftu mogą pomóc w stworzeniu bardziej zrównoważonego ekosystemu AI, gdzie europejskie języki i kultura nie będą już traktowane jako drugoplanowe. To może mieć długoterminowe konsekwencje nie tylko dla rozwoju technologii, ale także dla zachowania różnorodności kulturowej i językowej.

Wiceprzewodniczący i prezydent Microsoftu, Brad Smith, podkreśla, iż AI, które nie rozumie języków, historii i wartości Europy, nie może w pełni służyć jej ludziom, firmom czy przyszłości. Inicjatywy mają demokratyzować dostęp do zaawansowanych narzędzi AI, niezależnie od języka, którym posługuje się użytkownik.

Smith również podkreślił, iż przetrwanie tych języków i zdrowie tych kultur są dosłownie zagrożone, jeżeli nie zostaną podjęte środki naprawcze. Modele AI są mniej skuteczne, gdy są używane w języku, dla którego nie ma wystarczających danych, co może spowodować, iż więcej użytkowników przełączy się na angielski, choćby gdy nie jest to ich język ojczysty.

Ważnym aspektem inicjatywy jest to, iż Microsoft nie będzie tworzył żadnych własnościowych danych czy technologii dla siebie. To nie chodzi o tworzenie danych, które będą własnością Microsoftu. Chodzi o tworzenie danych, które mogą być wykorzystane przez społeczeństwo, podkreślił Smith.

Inicjatywy Microsoftu mogą rzeczywiście stanowić przełomowy moment w historii IT dla Polaków i wszystkich Europejczyków. Po raz pierwszy widzimy tak kompleksowe i przemyślane podejście do wyrównywania szans językowych w świecie sztucznej inteligencji. To nie są już tylko deklaracje – to konkretne działania wsparte realnym finansowaniem i technologiczną infrastrukturą.

Fakt, iż język polski już jest obsługiwany przez Copilot dla Microsoft 365, a Europa ma otrzymać dedykowane wsparcie w rozwoju wielojęzycznych modeli AI może oznaczać koniec dominacji angielskiego w najnowocześniejszych technologiach. jeżeli Microsoft dotrzyma swoich zobowiązań.

Idź do oryginalnego materiału