Cyfronet AGH, Narodowe Archiwum Cyfrowe, NASK oraz Fundacja SpeakLeash rozpoczynają strategiczną współpracę. Łącząc cyfrowe zasoby archiwalne i moc obliczeniową z doświadczeniem technologicznym oraz społecznością open‑science, chcą wspólnie tworzyć multimodalne modele sztucznej inteligencji nowej generacji. To istotny krok dla rozwoju polskiego AI.
Wspólnota zasobów i technologii
W nowym porozumieniu Narodowe Archiwum Cyfrowe udostępni swoje kolekcje, fotografie, dokumenty, mapy oraz skany, które staną się kluczowym źródłem danych treningowych dla modeli AI. Cyfronet AGH zapewni moc obliczeniową: dostęp do superkomputerów Helios i Athena oraz do innowacyjnych akceleratorów GPU GH200, które umożliwiają zaawansowane treningi AI. NASK wniesie swoje kompetencje badawcze i infrastrukturalne, a Fundacja SpeakLeash doświadczenie w budowie zasobów danych i otwartych modeli językowych takich jak Bielik czy Spichlerz.
Dzięki tej współpracy powstaną multimodalne modele AI zdolne analizować tekst, obraz, dźwięk i wideo, co stworzy nowe możliwości dla nauki, sektora publicznego, biznesu i obywateli.
Dotychczasowe osiągnięcia i potencjał
Fundacja SpeakLeash jest znana z budowy największych w Polsce zasobów danych tekstowych (Spichlerz), opisanych zgodnie z wymogami dyrektywy AI ACT. Wsparcie Cyfronetu AGH umożliwiło rozwój modelu językowego Bielik, o wielkości 11 mld parametrów i szerokim oknie kontekstowym, osiągającego wysokie wyniki w międzynarodowych benchmarkach. Helios i Athena, dostępne w AGH, zapewniają obliczeniową przewagę rzędu petaflopsów, co jest najważniejsze przy pracy z modelami multimodalnymi.
NASK jako partner konsorcjum PLLuM (Polish Large Language Model) ma doświadczenie w budowie otwartych modeli językowych dla języka polskiego. Połączenie tych kompetencji daje szerokie spektrum możliwości rozwoju AI w Polsce.
Polska sztuczna inteligencja PLLuM zawitała do samorządu w Częstochowie
Zasoby archiwalne jako baza treningu multimodalnego AI
Połączenie cyfrowych zasobów kulturowych z zaawansowaną infrastrukturą technologiczną i otwartą społecznością badawczą może stać się kamieniem milowym dla polskiej sztucznej inteligencji. Podobne inicjatywy prowadzą kraje takie jak Hiszpania, Finlandia czy Niemcy, tworząc lokalne modele językowe i multimodalne rozwiązania, ale Polska ma szansę zbudować przewagę dzięki unikalnemu połączeniu archiwaliów, mocy obliczeniowej i otwartego podejścia.
Dla biznesu i administracji nowe modele AI mogą stać się narzędziami usprawniającymi digitalizację procesów, automatyzację analiz dokumentów, a także umożliwić dostęp do dziedzictwa kulturowego. Z kolei dla obywateli to szansa na interakcję z multimodalnym AI, które rozumie polskie konteksty kulturowe, historyczne i językowe, co jest trudniejsze dla globalnych modeli, szkolonych na anglojęzycznych danych.