Cyfronet AGH, NAC, NASK i SpeakLeash razem zbudują polskie, multimodalne AI

itreseller.com.pl 4 miesięcy temu

Cyfronet AGH, Narodowe Archiwum Cyfrowe, NASK oraz Fundacja SpeakLeash rozpoczynają strategiczną współpracę. Łącząc cyfrowe zasoby archiwalne i moc obliczeniową z doświadczeniem technologicznym oraz społecznością open‑science, chcą wspólnie tworzyć multimodalne modele sztucznej inteligencji nowej generacji. To istotny krok dla rozwoju polskiego AI.

Wspólnota zasobów i technologii

W nowym porozumieniu Narodowe Archiwum Cyfrowe udostępni swoje kolekcje, fotografie, dokumenty, mapy oraz skany, które staną się kluczowym źródłem danych treningowych dla modeli AI. Cyfronet AGH zapewni moc obliczeniową: dostęp do superkomputerów Helios i Athena oraz do innowacyjnych akceleratorów GPU GH200, które umożliwiają zaawansowane treningi AI. NASK wniesie swoje kompetencje badawcze i infrastrukturalne, a Fundacja SpeakLeash doświadczenie w budowie zasobów danych i otwartych modeli językowych takich jak Bielik czy Spichlerz.

Dzięki tej współpracy powstaną multimodalne modele AI zdolne analizować tekst, obraz, dźwięk i wideo, co stworzy nowe możliwości dla nauki, sektora publicznego, biznesu i obywateli.

Dotychczasowe osiągnięcia i potencjał

Fundacja SpeakLeash jest znana z budowy największych w Polsce zasobów danych tekstowych (Spichlerz), opisanych zgodnie z wymogami dyrektywy AI ACT. Wsparcie Cyfronetu AGH umożliwiło rozwój modelu językowego Bielik, o wielkości 11 mld parametrów i szerokim oknie kontekstowym, osiągającego wysokie wyniki w międzynarodowych benchmarkach. Helios i Athena, dostępne w AGH, zapewniają obliczeniową przewagę rzędu petaflopsów, co jest najważniejsze przy pracy z modelami multimodalnymi.

NASK jako partner konsorcjum PLLuM (Polish Large Language Model) ma doświadczenie w budowie otwartych modeli językowych dla języka polskiego. Połączenie tych kompetencji daje szerokie spektrum możliwości rozwoju AI w Polsce.

Polska sztuczna inteligencja PLLuM zawitała do samorządu w Częstochowie

Zasoby archiwalne jako baza treningu multimodalnego AI

Połączenie cyfrowych zasobów kulturowych z zaawansowaną infrastrukturą technologiczną i otwartą społecznością badawczą może stać się kamieniem milowym dla polskiej sztucznej inteligencji. Podobne inicjatywy prowadzą kraje takie jak Hiszpania, Finlandia czy Niemcy, tworząc lokalne modele językowe i multimodalne rozwiązania, ale Polska ma szansę zbudować przewagę dzięki unikalnemu połączeniu archiwaliów, mocy obliczeniowej i otwartego podejścia.

Dla biznesu i administracji nowe modele AI mogą stać się narzędziami usprawniającymi digitalizację procesów, automatyzację analiz dokumentów, a także umożliwić dostęp do dziedzictwa kulturowego. Z kolei dla obywateli to szansa na interakcję z multimodalnym AI, które rozumie polskie konteksty kulturowe, historyczne i językowe, co jest trudniejsze dla globalnych modeli, szkolonych na anglojęzycznych danych.

Idź do oryginalnego materiału