Rząd Wielkiej Brytanii posiada jedne z najcenniejszych zestawów danych na świecie, w tym oficjalne statystyki, rekordy dziedzictwa kulturowego i dane dotyczące zdrowia NHS. Te zestawy danych zasilały przełom naukowy, innowacje biznesowe i ulepszenia usług publicznych.
Wraz z publikacją długo oczekiwanego planu działania możliwości sztucznej inteligencji transformacyjny potencjał danych rządowych dla AI nigdy nie był bardziej widoczny. Jednak ostatnie badania przeprowadzone przez Open Data Institute (ODI) ujawniają krytyczne niedociągnięcia w zakresie przygotowywania i publikowania rządowych zestawów danych AI.
Dane rządowe i wyzwanie niezawodności AI
Modele fundamentowe (FMS), takich jak Chatgpt i Gemini są coraz bardziej wykorzystywane do dostarczania informacji na temat polityk i usług publicznych. Jednak badania ODI podkreślają, iż chociaż modele te zeskrobują rządowe repozytoria danych, często nie zapewniają na nich dokładnych wyników. Zamiast tego modele opierają się na wtórnych lub niewiarygodnych źródłach, takich jak posty w mediach społecznościowych lub artykuły opinii lub po prostu sfabryzują odpowiedzi.
Konsekwencje są znaczące. Na przykład obywatele korzystający z narzędzi AI w celu zrozumienia uprawnień do korzyści mogą otrzymać w błąd lub niekompletną poradę, podważając zaufanie publiczne zarówno w zakresie AI, jak i usług rządowych. Jest to szczególnie niepokojące, biorąc pod uwagę nacisk rządu Wielkiej Brytanii na poprawę świadczenia usług publicznych poprzez innowacje AI.
Deficyty danych w ekosystemie AI
. Plan działania możliwości AIautor: Matt Clifford, słusznie podkreśla rolę Krajowa biblioteka danych (NDL) jako sposób odblokowania danych rządowych dla innowatorów AI. Jednak obecny stan zestawów danych rządowych stanowi znaczące bariery w osiągnięciu tej wizji.
Analiza ODI Common Crawl, kluczowego repozytorium zestawów danych dla modeli AI, wykazała, iż zeskrobała 13 556 stron z data.gov.uk od kwietnia 2024 r. Jednak strony te rzadko przyczyniły się do dokładnych wyjść modeli. W 195 zapytaniach testowych modele prawidłowo odwoływali się do danych. Statystyka gov.uk w zaledwie pięciu przypadkach.
Ten problem powstaje, ponieważ dane rządowe często nie są publikowane w formatach gotowych do AI. Podczas gdy technologie takie jak DCAT są wykorzystywane do wykrywania zestawów danych, skrobanie infrastruktury, takiej jak Commoncrawl, nie w pełni obsługuje te technologie. W rezultacie modele AI opierają się na mniej autorytatywnych źródłach, utrwalając dezinformację. Odkrycia ODI sugerują, iż ambicja Wielkiej Brytanii do prowadzenia innowacji AI może się załamać, chyba iż to rozłączenie zostanie rozwiązane.
Dowody z eksperymentów ODI
ODI przeprowadziło dwa eksperymenty w celu zbadania, w jaki sposób dane rządowe obsługują modele AI, a z kolei modele AI mogą wspierać mieszkańców Wielkiej Brytanii.
W pierwszym eksperymencie przeanalizowano, jak ważne są strony internetowe rządowe Wielkiej Brytanii dla sztucznej inteligencji. Naukowcy przeprowadzili badanie ablacyjne wykorzystujące „technikę oduczania maszynowego” w celu usunięcia stron internetowych Gov.uk z wyboru danych szkoleniowych FMS.
Wyniki wykazały wzrost o 42,6% niedokładności modeli, gdy jest pozbawiony treści Gov.uk, prowadząc do podstawowych błędów. Na przykład jeden test wykazał, iż modele, które nie miały dostępu do rządowych stron internetowych, źle poinformowały użytkowników w sprawie ich kwalifikowalności do świadczeń dla dzieci.
Natomiast drugi eksperyment stwierdził, iż rządowe zestawy danych są w tej chwili nieznane modeli AI. Ten eksperyment, badanie zdolności modeli do wycofywania określonych statystyk z danych
Wniosek tych eksperymentów był taki, iż chociaż strony internetowe są niezbędne dla dokładności sztucznej inteligencji, rządowe zestawy danych Statistics są niewykorzystane pomimo ich ogromnej wartości i potencjału w zakresie świadczenia usług publicznych. jeżeli chcemy zrealizować potencjał sztucznej inteligencji, aby zapewnić korzyści, takie jak poprawa jakości opieki, bezpieczeństwo i opłacalność w NHS, rząd musi priorytetowo traktować poprawę jakości, dostępności i użyteczności jej danych.
Ścieżka do przodu
Przyjęcie Uczciwe zasady – Zapewnienie, iż dane są możliwe do znalezienia, dostępne, interoperacyjne i wielokrotnego użytku – od dawna jest popierane przez data.gov.uk i pozostaje silnym fundamentem. Pojawiające się narzędzia jak Croissant, format metadanych odczytujący maszynowo Zaprojektowany do uczenia maszynowego, może dodatkowo zwiększyć wykrywalność i integrację z przepływami pracy programistów. jeżeli opisy zestawu danych zostaną ulepszone, będą one bardziej użyteczne dla użytkowników ludzi i maszyn.
Rząd musi zachęcać do odpowiedzialnego udostępniania danych, aby zapewnić sprawiedliwy dostęp do danych wysokiej jakości. Może to obejmować zachęty podatkowe do udostępniania danych w sektorze prywatnym, mandaty do projektów finansowanych ze środków publicznych w celu uzyskania ich danych w stosownych przypadkach, a choćby opłaty na treści generowane przez AI w celu sfinansowania zaufanych źródeł informacji. Musimy użyć technologie poprawiające prywatność, takie jak solidnektóre oferują osoby bezpośrednio dostęp i kontrolę nad ich danymi – na przykład ich dobrobyt i danych zdrowotnych – w celu zapewnienia dostępu do poufnych danych bez uszczerbku dla prywatności, wrażliwości komercyjnej lub bezpieczeństwa narodowego. Może to zapewnić ważne korzyści, takie jak korzystanie z uczenia maszynowego w celu identyfikacji osobistych czynników ryzyka dla chorób, umożliwiających działania zapobiegawcze. Dane trustów można zbudować na podstawie solidnych do zagregowanych danych. Te zagregowane dane można zestawić w zestawach danych z metadanami rogalików, aby przygotować je do wykorzystania badań.
Wyrównanie z planem działania
Nacisk Plan działania AI OPPSPESS na wysokiej jakości dane i silne zarządzanie są zgodne z wieloletnim zaangażowaniem ODI w rozwiązania społeczno-techniczne integrujące zaawansowaną infrastrukturę danych z zaufaniem publicznym. Aby wesprzeć rozwój systemów interoperacyjnych, zestawów danych gotowych do sztucznej inteligencji i technologii zwiększających prywatność, ODI opowiada się za dziesięcioletnią mapą drogową krajową infrastrukturę danych. Ta mapa drogowa poparłaby koncentrację planu działania na prowadzeniu innowacji AI poprzez inwestowanie w długoterminową infrastrukturę danych.
Jednak plan działania pozostawia kilka luk bez wstępu. Nie w pełni szczegółowo opisuje, w jaki sposób krajowa biblioteka danych uwzględni wkład użytkowników lub zaangażuje różnorodnych interesariuszy, aby zapewnić jej korzyść publiczną. Istnieją ograniczone szczegóły dotyczące formalnych standardów jakości i pochodzenia danych, które mają najważniejsze znaczenie dla zapewnienia zestawów danych gotowych do AI. Ponadto, choć plan działania podkreśla potrzebę wspierania innowatorów AI, może bardziej wyraźnie wspierać startupy skoncentrowane na danych specjalizujących się w przygotowaniu danych i narzędziach zarządzania. Mamy nadzieję, iż luki te zostaną rozwiązane, gdy rząd wprowadza zalecenia.
Międzynarodowe przywództwo poprzez współpracę
Badania ODI podkreślają globalne znaczenie podejść zorientowanych na dane do zarządzania AI. Jednak kilka narodów priorytetowo traktuje ten cel, ryzykując podważając szersze przyjęcie praktyk otwartych i udostępnianych danych. Bez solidnego zarządzania skoncentrowanego na danych fundamenty przezroczystych i odpowiedzialnych systemów AI mogą osłabić.
ODI uruchomiło globalne obserwatorium danych zasad AI, aby to rozwiązać. Ta inicjatywa zapewnia praktyczne zasoby wspierające decydentów w opracowywaniu zarządzania AI zorientowanej na dane. Oferując wgląd w odczytujące maszynowe metadane, zestaw narzędzi do odpowiedzialnego zażywania danych i najlepsze praktyki dotyczące przejrzystości, obserwatorium ma na celu wzmocnienie globalnej bazy dowodów dla AI zorientowanych na dane.
Realizacja potencjału AI Wielkiej Brytanii
Dostęp do wysokiej jakości danych rządowych jest niezbędny do realizacji potencjału AI w zakresie świadczenia usług publicznych. Poprawiając praktyki publikacji danych i inwestowanie w długoterminową infrastrukturę, Wielka Brytania może pozycjonować się jako światowy lider w zakresie świadczenia danych dla sztucznej inteligencji. To przywództwo odblokuje transformacyjne korzyści ekonomiczne i społeczne, dostosowując się do ambicji planu działania możliwości AI.
Pełny raport jest dostępny do pobrania pod adresem Raport ODI: rząd Wielkiej Brytanii jako dostawca danych dla AI.
Elena Simperl jest dyrektorem badań w ODI. Neil Majithia jest badaczem ODI.