Badania Apple dotyczące sztucznej inteligencji sugerują, iż niedługo pojawią się funkcje dla Siri, artystów i nie tylko.

cyberfeed.pl 1 tydzień temu


Łatwo byłoby pomyśleć, iż Apple spóźnił się z grą w AI. Od końca 2022 r., kiedy ChatGPT szturmem podbiło świat, większość konkurentów Apple upadła, aby nadrobić zaległości. Chociaż Apple z pewnością mówił o sztucznej inteligencji, a choćby wypuścił kilka produktów z myślą o sztucznej inteligencji, wydawało się, iż raczej wkracza do akcji, niż rzuca się na nią głową.

Jednak z ostatnich kilku miesięcy plotki i raporty sugerowały, iż Apple tak naprawdę tylko czekał na swój czas, czekając na swój ruch. W ostatnich tygodniach pojawiły się doniesienia, iż ​​Apple rozmawia z obydwoma firmami OpenAI i Google o zasilaniu niektórych funkcji sztucznej inteligencji i firma również to robiła pracuje nad własnym modelem o nazwie Ajax.

Jeśli przejrzysz opublikowane badania Apple dotyczące sztucznej inteligencji, zacznie się wyłaniać obraz tego, w jaki sposób podejście Apple do sztucznej inteligencji może stać się rzeczywistością. Oczywiście formułowanie założeń dotyczących produktu na podstawie artykułów naukowych jest nauką głęboko niedokładną — linia od badań do półek sklepowych jest wietrzna i pełna dziur. Ale możesz przynajmniej zorientować się, czym jest firma myślący o — i o tym, jak mogą działać funkcje sztucznej inteligencji, gdy Apple zacznie o nich mówić na dorocznej konferencji programistów WWDC w czerwcu.

Mniejsze, bardziej wydajne modele

Podejrzewam, iż ty i ja mamy nadzieję na to samo: lepszą Siri. I wygląda na to, iż nadchodzi Better Siri! W wielu badaniach Apple (i w dużej części branży technologicznej, na świecie i wszędzie) zakłada się, iż duże modele językowe natychmiast sprawią, iż wirtualni asystenci będą lepsi i mądrzejsi. Dla Apple dostęp do Better Siri oznacza możliwie najszybsze tworzenie tych modeli i upewnienie się, iż są wszędzie.

W systemie iOS 18 Apple planuje, aby wszystkie funkcje sztucznej inteligencji działały w modelu całkowicie offline na urządzeniu, Bloomberga Ostatnio zgłoszone. Trudno jest zbudować dobry, wielofunkcyjny model, choćby jeżeli masz sieć centrów danych i tysiące najnowocześniejszych procesorów graficznych — drastycznie trudniej jest to zrobić, mając jedynie odwagę w telefonie. Dlatego Apple musi wykazać się kreatywnością.

W artykule zatytułowanym „LLM w mgnieniu oka: wydajne wnioskowanie o modelu wielkojęzykowym przy ograniczonej pamięci” (wszystkie te artykuły mają naprawdę nudne tytuły, ale są naprawdę interesujące, obiecuję!), badacze opracowali system przechowywania danych modelu, które zwykle są przechowywane w pamięci RAM urządzenia, zamiast tego na dysku SSD. „Wykazaliśmy zdolność do obsługi LLM choćby dwukrotnie większych od dostępnej pamięci DRAM [on the SSD]” – napisali badacze – „osiągając przyspieszenie szybkości wnioskowania o 4–5 razy w porównaniu z tradycyjnymi metodami ładowania w procesorze i 20–25 razy w przypadku procesora graficznego”. Odkryli, iż wykorzystując najtańszą i dostępną pamięć na urządzeniu, modele mogą działać szybciej i wydajniej.

Badacze Apple stworzyli także system tzw EELBERTA co zasadniczo może skompresować LLM do znacznie mniejszych rozmiarów, nie czyniąc go znacząco gorszym. Ich skompresowana wersja modelu Bert firmy Google była 15 razy mniejsza – tylko 1,2 megabajta – i spowodowała jedynie 4-procentowy spadek jakości. Wiązało się to jednak z pewnymi kompromisami w zakresie opóźnień.

Ogólnie rzecz biorąc, Apple dąży do rozwiązania podstawowego napięcia w świecie modeli: im większy model, tym lepszy i bardziej użyteczny może być, ale także może stać się bardziej nieporęczny, energochłonny i powolny. Podobnie jak wiele innych, firma stara się znaleźć adekwatną równowagę między tymi wszystkimi rzeczami, jednocześnie szukając sposobu, aby mieć to wszystko.

Siri, ale dobrze

Kiedy mówimy o produktach AI, często mówimy o wirtualnych asystentach — asystentach, którzy wiedzą różne rzeczy, mogą nam o czymś przypominać, odpowiadać na pytania i wykonywać różne czynności w naszym imieniu. Nie jest więc specjalnie szokujące, iż wiele badań Apple nad sztuczną inteligencją sprowadza się do jednego pytania: co by było, gdyby Siri była naprawdę, naprawdę, naprawdę dobra?

Nad rozwiązaniem pracowała grupa badaczy Apple sposób na wykorzystanie Siri bez konieczności używania słowa budzącego; zamiast słuchać „Hej Siri” lub „Siri”, urządzenie może po prostu wyczuć, czy do niego mówisz. „Problem ten stanowi znacznie większe wyzwanie niż wykrywanie wyzwalacza głosowego” – przyznali naukowcy, „ponieważ może nie istnieć wiodąca fraza wyzwalająca oznaczająca początek polecenia głosowego”. Być może dlatego inna grupa badaczy opracowała system dokładniej wykrywa słowa budzące. Kolejny papier przeszkolił model, aby lepiej rozumiał rzadkie słowa, które często nie są dobrze rozumiane przez asystentów.

W obu przypadkach zaletą LLM jest to, iż teoretycznie może przetwarzać znacznie więcej informacji i znacznie szybciej. Na przykład w artykule dotyczącym słów przebudzenia naukowcy odkryli, iż przez nie próbując odrzucić wszystkie niepotrzebne dźwięki, ale zamiast tego przekazać je wszystkie modelowi i pozwolić mu przetworzyć to, co ma, a co nie ma znaczenia, słowo budzenia działało znacznie bardziej niezawodnie.

Gdy Siri Cię usłyszy, Apple wykonuje mnóstwo pracy, aby upewnić się, iż rozumie i lepiej się komunikuje. W jednym artykule rozwinęło się system zwany STEER (co oznacza Semantic Turn Extension-Expansion Recognition, więc wybierzemy STEER), którego celem jest usprawnienie komunikacji z asystentem poprzez próbę ustalenia, kiedy zadajesz pytanie uzupełniające, a kiedy pytasz o nowy. W innym przypadku wykorzystuje LLM, aby lepiej zrozumieć „niejednoznaczne zapytania” i zrozumieć, co masz na myśli, niezależnie od tego, jak to powiesz. „W niepewnych okolicznościach” – napisali – „inteligentni agenci konwersacyjni mogą potrzebować przejąć inicjatywę, aby zmniejszyć swoją niepewność poprzez proaktywne zadawanie dobrych pytań, a tym samym skuteczniejsze rozwiązywanie problemów”. Kolejny papier ma również w tym pomóc: badacze wykorzystali LLM, aby asystenci byli mniej gadatliwi i bardziej zrozumiałi podczas generowania odpowiedzi.

Już niedługo będzie można edytować zdjęcia, po prostu prosząc o wprowadzenie zmian.Obraz: Jabłko

Sztuczna inteligencja w zdrowiu, edytory obrazów, w Twoich Memoji

Ilekroć Apple wypowiada się publicznie na temat sztucznej inteligencji, zwykle skupia się mniej na surowych możliwościach technologicznych, a bardziej na codziennych rzeczach, które sztuczna inteligencja może dla Ciebie zrobić. Tak więc, choć duży nacisk kładzie się na Siri – zwłaszcza, iż ​​Apple chce konkurować z urządzeniami takimi jak Humane AI Pin, Rabbit R1 i ciągłe wbijanie Gemini w cały system Android przez Google – Apple wydaje się widzieć wiele innych sposobów Sztuczna inteligencja jest przydatna.

Oczywistym miejscem, na którym Apple może się skupić, jest zdrowie: programy LLM mogłyby teoretycznie pomóc w przeprawieniu się przez oceany danych biometrycznych gromadzonych przez różne urządzenia i pomóc Ci zrozumieć to wszystko. Dlatego Apple bada, jak gromadzić i zestawiać wszystkie dane dotyczące ruchu, jak używać rozpoznawania chodu i słuchawek do identyfikacji użytkownika oraz jak śledzić i rozumieć dane dotyczące tętna. Firma Apple stworzyła i udostępniła także „największy zbiór danych o aktywności człowieka, obejmujący wiele urządzeń i czujników w wielu lokalizacjach”, dostępny po zebraniu danych od 50 uczestników dzięki wielu czujników umieszczonych na ciele.

Wydaje się, iż Apple również postrzega sztuczną inteligencję jako narzędzie kreatywne. W przypadku jednego artykułu badacze przeprowadzili wywiady z grupą animatorów, projektantów i inżynierów i zbudowali system o nazwie Keyframer iż „włącz[s] użytkownikom możliwość iteracyjnego konstruowania i udoskonalania wygenerowanych projektów. Zamiast wpisywać monit i wyświetlać obraz, a następnie wpisywać kolejny monit, aby uzyskać inny obraz, zaczynasz od podpowiedzi, a następnie otrzymujesz zestaw narzędzi umożliwiający dostosowanie i udoskonalenie części obrazu według własnych upodobań. Można sobie wyobrazić tego rodzaju powtarzający się proces artystyczny pojawiający się w dowolnym miejscu, od kreatora Memoji po niektóre z bardziej profesjonalnych narzędzi artystycznych Apple.

W inny papier, firma Apple opisuje narzędzie o nazwie MGIE, które umożliwia edycję obrazu po prostu opisując zmiany, które chcesz wprowadzić. („Uczyń niebo bardziej błękitnym”, „uczyń moją twarz mniej dziwną”, „dodaj trochę kamieni” itp.) „Zamiast krótkich, ale dwuznacznych wskazówek, MGIE czerpie wyraźną intencję świadomą wizualnie i prowadzi do rozsądnej edycji obrazu ” – napisali badacze. Początkowe eksperymenty nie były doskonałe, ale zrobiły wrażenie.

Być może w Apple Music pojawi się choćby sztuczna inteligencja: w przypadku artykułu zatytułowanego „Eliminacja głosu stereofonicznego z ograniczonymi zasobami”, badacze badali sposoby oddzielania głosów od instrumentów w piosenkach — co może się przydać, jeżeli Apple chce dać ludziom narzędzia do, powiedzmy, remiksowania piosenek w taki sam sposób, w jaki jest to możliwe na TikToku lub Instagramie.

W przyszłości Siri może być w stanie zrozumieć Twój telefon i używać go za Ciebie.Obraz: Jabłko

Założę się, iż z biegiem czasu Apple zacznie się skupiać na takich rzeczach, szczególnie na iOS. Część z nich Apple wbuduje we własne aplikacje; niektóre będą oferowane zewnętrznym programistom jako interfejsy API. (Ostatnia funkcja Sugestie dziennika jest prawdopodobnie dobrym przewodnikiem, jak to może działać). Apple zawsze rozpowiadał o swoich możliwościach sprzętowych, szczególnie w porównaniu z przeciętnym urządzeniem z Androidem; połączenie całej tej mocy z zainstalowaną na urządzeniu sztuczną inteligencją skupioną na prywatności może być dużym wyróżnikiem.

Ale jeżeli chcesz zobaczyć największą i najbardziej ambitną sztuczną inteligencję Apple, musisz o tym wiedzieć Fretka. Fretka to multimodalny model dużego języka, który może przyjmować instrukcje, skupiać się na czymś konkretnym, co zakreśliłeś lub wybrałeś w inny sposób, i rozumieć otaczający go świat. Został zaprojektowany z myślą o typowym w tej chwili przypadku użycia sztucznej inteligencji, polegającym na pytaniu urządzenia o otaczający Cię świat, ale może również zrozumieć, co jest na Twoim ekranie. W artykule Ferret naukowcy wykazali, iż może to pomóc w poruszaniu się po aplikacjach, udzielaniu odpowiedzi na pytania dotyczące ocen w App Store, opisywaniu tego, na co patrzysz i nie tylko. Ma to naprawdę ekscytujące implikacje dla dostępności, ale może też pewnego dnia całkowicie zmienić sposób, w jaki korzystasz z telefonu — a także z Vision Pro i/lub inteligentnych okularów.

Wyprzedzamy się tutaj, ale możesz sobie wyobrazić, jak by to działało w przypadku niektórych innych rzeczy, nad którymi pracuje Apple. Siri, która rozumie, czego chcesz, w połączeniu z urządzeniem, które widzi i rozumie wszystko, co dzieje się na Twoim wyświetlaczu, to telefon, który dosłownie potrafi sam się używać. Apple nie potrzebowałoby głębokiej integracji ze wszystkim; może po prostu uruchomić aplikacje i automatycznie nacisnąć odpowiednie przyciski.

Powtórzę jeszcze raz: to wszystko to tylko badania i sprawne działanie tego wszystkiego od wiosny byłoby naprawdę niesłychanym osiągnięciem technicznym. (To znaczy, próbowałeś chatbotów – wiesz, iż nie są świetne.) Ale założę się o wszystko, iż na WWDC otrzymamy kilka ważnych ogłoszeń dotyczących sztucznej inteligencji. Dyrektor generalny Apple, Tim Cook, choćby drażnił się z tym w lutym i w zasadzie to obiecał podczas rozmowy telefonicznej w sprawie zarobków w tym tygodniu. Dwie rzeczy są bardzo jasne: Apple jest bardzo zaangażowany w wyścig sztucznej inteligencji i może to oznaczać całkowitą modernizację iPhone’a. Cholera, możesz choćby zacząć chętnie używać Siri! I to byłoby całkiem niezłe osiągnięcie.



Source link

Idź do oryginalnego materiału