Wyjaśnienie LLM: Przewodnik dla programistów dotyczący rozpoczęcia pracy

cyberfeed.pl 2 miesięcy temu


Ponieważ duże modele językowe (LLM) i generatywna sztuczna inteligencja (GenAI) są coraz częściej wbudowane w oprogramowanie dla przedsiębiorstw, bariery wejścia – jeżeli chodzi o rozpoczęcie działalności programisty – zostały prawie usunięte.

Istnieje wiele gotowych produktów, takich jak różne Oferta Microsoft Copilot, których celem jest produktywność użytkowników biznesowych. Dla twórców systemu Microsoft udostępnia także usługę Github Copilot, która ma przyspieszyć kodowanie poprzez automatyczne uzupełnianie i wyświetlanie monitów pomagających programistom w szybszym pisaniu kodu.

Dostęp za pośrednictwem interfejsów programowania aplikacji (API) do usług w chmurze publicznej, takich jak ChatGPT, umożliwia programistom włączanie potężnych chatbotów AI do własnych aplikacji. Deweloperzy, których organizacje są klientami nowoczesnego systemu dla przedsiębiorstw, takiego jak między innymi produkty Salesforce, Workday, Oracle czy SAP, również będą mieli dostęp do możliwości korporacyjnej sztucznej inteligencji obsługiwanej przez LLM.

Jedyne zastrzeżenia dotyczą prywatności danych i ochrony własności intelektualnej. Chociaż programista może z łatwością rozpocząć wypróbowywanie narzędzi dostępnych w chmurze publicznej, skuteczne szkolenie wymaga wysokiej jakości danych specyficznych dla domeny.

W korporacyjnych hurtowniach danych znajduje się mnóstwo takich zbiorów danych, ale aby zapobiec wyciekowi danych, żadne dane korporacyjne nie powinny być nigdy przesyłane do publicznej platformy LLM, chyba iż programista został upoważniony do upublicznienia takich danych.

Deweloperzy powinni również zachować ostrożność podczas używania dane osobowe z LLM, ponieważ przeniesienie takich danych do LLM na potrzeby szkolenia mogłoby naruszyć przepisy dotyczące prywatności danych. Najlepszą radą jest zapewnienie zgodności danych wymaganych do szkoleń i testowania z firmowymi zasadami dotyczącymi danych.

Dlatego istnieje duże zainteresowanie organizacjami budującymi własne prywatne LLM. W praktyce takie systemy sprawdzają się najlepiej, jeżeli potrafią połączyć ogromną ilość informacji, które można uzyskać z publicznych LLM, z komercyjnie wrażliwymi i zastrzeżonymi danymi w systemach informatycznych przedsiębiorstw.

Jak zacząć korzystać z LLM

Istnieje wiele programów LLM z łatwo dostępnymi interfejsami API, które programiści mogą wykorzystać do rozpoczęcia tworzenia aplikacji wykorzystujących sztuczną inteligencję. Programiści muszą zdecydować, czy skorzystać z otwartego LLM, czy z zastrzeżonego.

Zastrzeżone modele dostępne za pośrednictwem interfejsu API są zwykle licencjonowane w oparciu o sposób użycia, a programista po prostu rejestruje się w subskrypcji w oparciu o wymagania dotyczące użytkowania. Wykorzystanie jest mierzone i wyceniane w tak zwanych w branży „tokenach” na podstawie ilości tekstu wysłanego lub otrzymanego przez LLM. Oznacza to, iż koszty mogą gwałtownie wzrosnąć, jeżeli są one szeroko stosowane, ale zgodnie z Ilkka Turunendyrektor ds. technologii (CTO) w firmie Sonatype, obliczenia dla takich zamówień nie zawsze są proste i wymagana jest dogłębna wiedza na temat ładunku.

Modele otwarte są na ogół znacznie tańsze w dłuższej perspektywie niż własne LLM, ponieważ nie wiążą się z żadnymi opłatami licencyjnymi. Jednak programiści rozważający modele open source muszą również wziąć pod uwagę koszty związane ze szkoleniem i uruchamianiem ich w chmurach publicznych lub korzystaniem z lokalnych serwerów w centrach danych zoptymalizowanych pod kątem obciążeń AI.

Otwarte modele obejmują LLaMA2 firmy Meta, Bert firmy Google i Falcon-40B firmy Instytut Innowacji Technologicznych w Abu Zabi. Dostępnych jest wiele otwartych modeli i aby pomóc programistom lepiej zrozumieć ich zalety i wady, Hugging Spaces utworzył tabelę liderów open source LLM, które korzystają z Eleuther AI Language Model Evaluation Harness ujednolicony framework do testowania generatywnych modeli języka.

Jaki sprzęt jest potrzebny do szkolenia LLM

LLM wymagają znacznych zasobów obliczeniowych. Na przykład w 2023 roku Sharada Yeluri, technolog i starszy dyrektor ds. inżynierii w Juniper Networks, zamieściła na LinkedIn artykuł, z którego wynika, iż ​​przy 2048 procesorach graficznych (GPU) Nvidia A100 przeszkolenie LLaMA2 w zakresie 32 000 słów zajęłoby 21 dni .

Wszyscy wiodący producenci serwerów PC oferują serwery, które są zoptymalizowany pod kątem obciążeń AI. Serwery te są wstępnie skonfigurowane jako klastry z szybkimi połączeniami, które skutecznie łączą procesory graficzne w celu zapewnienia skalowalnej wydajności.

Istnieją wyraźnie pewne LLM, które będą miały lepsze wykorzystanie sprzętu pod względem wydajności w porównaniu z innymi. Tablica liderów Hugging Spaces to jedno z miejsc, do których programiści mogą się udać, badając wymagania dotyczące zasobów IT różnych LLM. Są inne, w tym otwarte współpraca na Githubie.

Całkowicie wykonalne jest także uruchamianie mniejszych modeli, które są trenowane na mniejszej ilości danych i w konsekwencji wymagają znacznie mniejszej mocy obliczeniowej. Niektóre z nich można uruchomić na laptopie lub komputerze stacjonarnym o rozsądnej wydajności, skonfigurowanym z chipami AI.

Typowe pułapki, których należy unikać

Systemy sztucznej inteligencji są zwykle niedeterministyczne, co ma wpływ na sposób projektowania i testowania systemów sztucznej inteligencji przy podejmowaniu decyzji. jeżeli dane użyte w szkoleniu nie są kompletne, tak się stanie prowadzić do uprzedzeń i błędnych założeń gdy systemowi sztucznej inteligencji zostaną przedstawione dane ze świata rzeczywistego. Deweloperzy muszą dostroić modele danych i ulepszyć je dzięki technik takich jak dostrajanie hiperparametrów i niuanse, aby osiągnąć optymalne wyniki.

LLM opierają się na wysokiej jakości danych szkoleniowych. jeżeli dane są niekompletne, niespójne lub brakuje w nich niektórych danych demograficznych, może powodować wady lub uprzedzenia w odpowiedziach, których udzielają.

LLM mogą czasami się pomylić. Ten zjawisko znane jest jako halucynacja.

Korzystanie z LLMS z analityką biznesową

Chociaż publiczne LLM są szkolone w oparciu o ogromną ilość danych publicznych, nie mają dostępu do wewnętrznego funkcjonowania firmy. Silnik wnioskowania oparty na danych publicznych prawdopodobnie nie przeoczy niuansów określonej domeny w obrębie organizacji i przepływów informacji zasilających jej procesy biznesowe.

W przypadku stosowania w systemach podejmowania decyzji programista musi również wziąć pod uwagę kwestię możliwości wyjaśnienia, ponieważ zastrzeżone LLM przypominają raczej czarne skrzynki, co utrudnia rozszyfrowanie, w jaki sposób silnik wnioskowania uzyskuje odpowiedzi na pytanie wejściowe.

Aby uniknąć wycieku danych, wielu liderów IT zakazuje lub ogranicza korzystanie z publicznych LLM. Dane publiczne można wykorzystać w aplikacjach wnioskowania, ale wyniki LLM należy połączyć z informacjami specyficznymi dla firmy, które znajdują się w systemach informatycznych przedsiębiorstwa.

Kluczowe znaczenie ma solidna strategia zarządzania informacjami, obejmująca poręcze zapewniające spójność i integralność danych oraz zapobiegające ich wyciekom. Jednym z miejsc, od których warto zacząć, są dane przechowywane w komercyjnych, gotowych aplikacjach dla przedsiębiorstw. Wiele z tych pakietów systemu zawiera LLM.

Oracle, na przykład, oferuje swoim klientom możliwość wykorzystania własnych, prywatnych danych w celu „dostrojenia” publicznych programów LLM, zapewniając wyniki specyficzne dla danej organizacji. Firma zaprezentowała niedawno agentów GenAI dla Oracle Cloud Infrastructure. Vinod Mamtani, wiceprezes i dyrektor generalny Oracle ds. usług GenAI, powiedział: „Nie wymagamy od klientów przenoszenia danych poza magazyn danych, aby uzyskać dostęp do usług AI. Zamiast tego wprowadzamy technologię sztucznej inteligencji tam, gdzie znajdują się dane naszych klientów”.

Rival SAP łączy także LLM ze źródłami danych przedsiębiorstwa. Multimodalna baza danych SAP Hana Cloud zawiera wektorowy silnik bazy danych, który umożliwia organizacjom łączenie możliwości LLM z danymi przedsiębiorstwa w celu odpowiadania na zapytania.

Jurgena Muellera, dyrektor ds. technologii SAP, powiedział: „Duże modele językowe zapewniają iskry inteligencji, ale mają też poważne ograniczenia. Nie mają pojęcia, co wydarzyło się w ciągu ostatniego roku czy dwóch lat i nie mają dostępu do żadnych danych biznesowych, więc trudno jest wdrożyć je w środowisku produkcyjnym”.

Przedstawienie uzasadnienia biznesowego dla rozwoju z LLM

Zdaniem analityka Forresterajedną z możliwości wykorzystania LLM jest poprawa efektywności operacyjnej, na przykład w finansach i księgowości, w celu zmniejszenia opłat za audyt zewnętrzny. Każdy dyrektor finansowy chce skrócić liczbę godzin rozliczanych przez audytora zewnętrznego. LLM mogą odpowiadać na pytania audytorów oraz skracać godziny i liczbę personelu wewnętrznego wymaganego do gromadzenia informacji.

Audytorzy widzą także sposób na wykorzystanie LLM, aby pomóc im wydajniej pracować. Na przykład firma PwC opracowała narzędzie wspomagające sztuczną inteligencję podatkową, które zawiera odsyłacze, a także została przeszkolona w zakresie orzecznictwa, ustawodawstwa i innych podstawowych źródeł, a także własnej własności intelektualnej z siedzibą w Wielkiej Brytanii.

Według PwC dane są regularnie odświeżane w celu uwzględnienia zmian i aktualizacji przepisów podatkowych. Twierdzi, iż model zapewnia znacznie wyższą jakość i dokładność w dziedzinie podatkowej w porównaniu z publicznie dostępnymi LLM, a także zawiera odniesienia do danych bazowych, umożliwiając przejrzystą i dokładną walidację przez specjalistów podatkowych.



Source link

Idź do oryginalnego materiału