Salesforce ogłosił wprowadzenie pierwszego na świecie benchmarku LLM (Large Language Models), który ma pomóc firmom w ocenie licznych modeli językowych do wykorzystania w systemach zarządzania relacjami z klientami (CRM).
Nowy benchmark stanowi kompleksowe ramy oceny, które mierzą wydajność LLM w odniesieniu do czterech kluczowych miar: dokładności, kosztów, szybkości oraz zaufania i bezpieczeństwa. Został zaprojektowany z myślą o ocenie typowych przypadków użycia w sprzedaży i usługach, takich jak prospecting, lead nurturing, a także podsumowania szans sprzedaży i przypadków usług. Użytkownicy benchmarku mają dostęp do tabeli liderów, co ułatwia profesjonalistom wybór najlepszego modelu dla ich specyficznych potrzeb. Salesforce planuje ciągłe dodawanie nowych scenariuszy przypadków użycia oraz ulepszanie oceny LLM.
Istniejące benchmarki LLM są głównie skupione na zastosowaniach akademickich i konsumenckich, co sprawia, iż ich znaczenie dla biznesu jest niewielkie. Brakuje w nich odpowiednich ocen ekspertów oraz uwzględnienia kluczowych metryk takich jak dokładność, szybkość, koszty i zaufanie. W efekcie firmy nie miały dotąd wiarygodnej metody oceny skuteczności generatywnych rozwiązań CRM opartych na sztucznej inteligencji. Nowy benchmark Salesforce AI Research zmienia ten stan rzeczy, oferując narzędzie oparte na rzeczywistych danych CRM oraz eksperckich ocenach praktyków, co umożliwia firmom podejmowanie bardziej strategicznych decyzji dotyczących integracji generatywnej sztucznej inteligencji w ich systemach CRM.
Metryki benchmarku
Dokładność: Kategoria ta obejmuje cztery podkategorie: rzeczowość, kompletność, zwięzłość i zgodność z instrukcjami. Dokładniejsze przewidywania i zalecenia są najważniejsze dla wartościowych wyników i lepszych działań w obsłudze klienta. choćby jeżeli model nie spełnia w pełni wymagań dokładności, można go poprawić dzięki technik takich jak szybka inżynieria i dostrajanie.
Koszt: Metryka ta jest klasyfikowana jako wysoka, średnia lub niska, w oparciu o percentyle kosztów operacyjnych, różniące się w zależności od przypadku użycia. Umożliwia klientom ocenę opłacalności różnych rozwiązań LLM, dostosowując je do budżetu i strategii alokacji zasobów.
Szybkość: Ta miara ocenia szybkość reakcji i wydajność LLM w przetwarzaniu oraz dostarczaniu informacji. Krótszy czas reakcji przekłada się na lepsze doświadczenia użytkownika oraz szybsze reagowanie zespołów sprzedaży i obsługi na zapytania klientów.
Zaufanie i bezpieczeństwo: Wskaźnik ten mierzy zdolność LLM do ochrony danych klientów, zgodności z przepisami dotyczącymi prywatności, zabezpieczania informacji oraz unikania stronniczości i toksyczności. Benchmark zapewnia organizacjom przejrzystość w zakresie zaufania i bezpieczeństwa, co jest najważniejsze dla niezawodności rozwiązań CRM.
Dzięki platformie Einstein 1, firmy mogą wybierać spośród istniejących rozwiązań LLM lub tworzyć własne modele spełniające ich unikalne potrzeby biznesowe. Korzystając z benchmarku, organizacje mogą wdrażać bardziej skuteczne i wydajne rozwiązania generatywnej sztucznej inteligencji, co pozwala na napędzanie wzrostu, obniżanie kosztów i dostarczanie spersonalizowanych doświadczeń klientów.