Jak nauczyć AI języków europejskich. Microsoft chce pomóc?

homodigital.pl 4 godzin temu

Jak nauczyć AI języków europejskich? Tak, żeby mogła dobrze porozumiewać się nie tylko mieszkańcem Kalifornii, ale również z przedsiębiorcą z Łotwy czy studentem z Bułgarii. Nie jest to proste – po to by dobrze wytrenować model AI w danym języku potrzebny jest duży zbiór danych w tym języku. Microsoft chce w tym pomóc, ale jeżeli chcemy rozwiązać problem kompleksowo, to rozwiązanie powinno pojawić się raczej na szczeblu unijnym.

Europa to różnorodność. W samej UE są 24 oficjalne języki, a w sumie na kontynencie jest przeszło 200 języków. Z tymi językami wiążą się zwykle odrębne kultury i zwyczaje, także – poczucie humoru.

Ta różnorodność to jednak nie tylko bogactwo, ale i wyzwanie. Przede wszystkim w komunikacji międzyludzkiej, ale również w możliwości korzystania z najnowszych osiągnięć technologicznych. I tak na przykład AI mówi przede wszystkim po angielsku, nieźle w jeszcze paru innych językach europejskich. Niestety słabo w sporej grupie mniejszych języków europejskich, w tym tych, które mają status języków oficjalnych Unii.

Jak nauczyć AI języków europejskich?

Podstawowym problemem dla języków europejskich jest to, iż większość modeli sztucznej inteligencji powstaje poza Europą, więc ich twórcy mniejszą uwagę poświęcają europejskim językom. Jest jednak również drugi problem, który nie zniknie, choćby jeżeli Europa zacznie budować swoje własne modele – to brak danych.

Jak odnotowuje Brad Smith, wice prezes Microsoftu, w najnowszym wpisie na blogu, choć osoby, dla których angielski jest pierwszym językiem stanowią raptem 5% ludności globu, to treści w języku angielskim to około połowy wszystkich treści w internecie.

Źródło: Microsoft

Tymczasem nadreprezentacja angielskiego oznacza niedostateczną reprezentację innych języków, zwłaszcza należących do mniejszych grup etnicznych. Polski ma się jeszcze całkiem nieźle. Widać to na wykresie (prezentującym udział języków europejskich w Common Crawl, otwartym zbiorze danych z internetu). Gorzej jest w przypadku takich języków jak szwedzki czy grecki – to raptem 0,6% wszystkich treści w internecie, a dla takich jak jak łotewski czy maltański ten udział jest niemal pomijalny.

Kiedy rozmawiałem swego czasu z Michałem Domańskim z Fundacji Spichlerz, to wskazywał on, iż startupy w krajach nadbałtyckich choćby nie myślą o tworzeniu własnych modeli, bo wiedzą, iż mają za mało danych językowych. A jak pokazują dane badawcze, im mniejszy korpus, tym gorsze wyniki na przykład benchmarków z matematyki dla modeli AI odpytywanych w danym języku.

I w tym miejscu właśnie chce pomóc Microsoft. Firma udostępni swoje własne zasoby danych wielojęzykowych, w tym dane z GitHuba i dane głosowe. Rozpocznie również współpracę z Common Crawl, by poprawić jakość danych dla języków europejskich. Microsoft wspomoże również wysiłki na rzecz stworzenia danych językowych dla dziesięciu małych języków naszego kontynentu, takich jak estoński, maltański czy słowacki.

Mnie jednak trudno oprzeć się wrażeniu, iż jeżeli Europa ma sprostać wyzwaniom związanym ze swoim bogactwem językowym, zwłaszcza w obszarze AI, to oddolne inicjatywy, takie jak ta Microsoftu czy niektórych europejskich ośrodków badawczych nie wystarczą. Tutaj najprawdopodobniej powinna wkroczyć Komisja Europejska. Przede wszystkim dlatego, iż bariery językowe są jedną z przeszkód do powstania w Europie prawdziwego jednolitego rynku. Nie są to jedyne przeszkody, ale istotne.

Polski ma się całkiem nieźle

Na tle wielu innych języków europejskich, polski ma się całkiem dobrze. Po pierwsze, ilość polskich danych w Common Crawl nie jest – jak już wskazywałem – aż tak mała, po drugie modele językowe są szkolone na danych z Wikipedii, a polska Wikipedia należy, z 1,66 mln haseł, do pierwszej dziesiątki na świecie. Polskim nieźle posługują się nie tylko największe modele językowe jak GPT-4o, Gemini czy Claude, ale również mniejsza – i darmowa – Gemma od Google.

Dodatkowo mamy przecież dwie rodziny własnych modeli językowych mówiących po polsku – Bielika i PLLuM-a. jeżeli jednak chcemy, by polskie firmy wchodziły na ościenne, często niezbyt duże rynki, to dobrze by było, by polska AI mówiła również językami naszych sąsiadów. Na szczęście zespół Bielika podobno nad tym pracuje.

Źródło: ArdadN at English Wikipedia

Idź do oryginalnego materiału