OpenAI wprowadza innowacje w ChatGPT, wzbogacając go o funkcje audio i graficzne

geekoo.pl 1 rok temu

OpenAI, przedsiębiorstwo specjalizujące się w technologiach sztucznej inteligencji, które w ubiegłym roku zaprezentowało aplikację ChatGPT, teraz czyni ją jeszcze bardziej interaktywną. Ostatnie uaktualnienie mobilnej wersji ChatGPT dla platform iOS i Android umożliwia użytkownikom komunikację głosową, a także odbieranie odpowiedzi wygenerowanym głosem. Dodatkowo, ChatGPT został wyposażony w funkcje graficzne: po przesłaniu lub wykonaniu zdjęcia, aplikacja dostarcza analizę obrazu oraz dodatkowe informacje, przypominając funkcjonalność Lens oferowaną przez Google.

Wprowadzenie tych nowości w ChatGPT świadczy o tym, iż OpenAI postrzega swoje modele AI, które są rozwijane od wielu lat, jako ciągle ewoluujące produkty. ChatGPT, który stał się nieoczekiwanym sukcesem firmy, zyskuje na charakterze aplikacji konsumenckiej, stając się konkurencją dla takich rozwiązań jak Siri od Apple czy Alexa od Amazonu.

Poprawki w ChatGPT mogą przyspieszyć rozwój OpenAI w konkurencji z innymi gigantami branży AI, takimi jak Google czy Anthropic, dostarczając cenniejszych danych od użytkowników do doskonalenia zaawansowanych systemów AI. Integracja danych audio-wizualnych z modelami uczenia maszynowego ChatGPT może również przyczynić się do osiągnięcia przez OpenAI celu stworzenia bardziej zaawansowanej, ludzkiej formy inteligencji.

Technologie językowe OpenAI, które stanowią rdzeń ChatGPT, w tym najnowszy model GPT-4, zostały opracowane na podstawie obszernych zbiorów tekstów z różnych stron internetowych. Wielu specjalistów z dziedziny AI jest przekonanych, iż podobnie jak ludzka czy zwierzęca inteligencja korzysta z różnorodnych danych sensorycznych, rozwijanie bardziej zaawansowanego AI będzie wymagało dostarczania informacji nie tylko tekstowych, ale także audio-wizualnych.

Następny najważniejszy model AI od Google, nazwany Gemini, jest powszechnie uważany za „multimodalny”, co sugeruje, iż będzie w stanie przetwarzać nie tylko tekst, ale także wideo, obrazy czy dźwięk. „Intuicyjnie można by się spodziewać, iż modele multimodalne będą bardziej efektywne niż te oparte tylko na jednym rodzaju danych,” komentuje Trevor Darrell z UC Berkeley, współtwórca start-upu Prompt AI, skupiającego się na łączeniu języka naturalnego z generowaniem i modyfikacją obrazów. „Jeśli stworzymy model bazujący wyłącznie na języku, niezależnie od jego mocy, będzie on zdolny do przyswajania tylko informacji językowych.”

Nowo opracowana technologia generowania głosu przez ChatGPT otwiera drzwi dla licencjonowania tej technologii przez inne firmy. Na przykład Spotify ma zamiar wykorzystać algorytmy syntezy mowy OpenAI do testowania funkcji tłumaczenia podcastów na inne języki, zachowując charakterystyczny ton oryginalnego prowadzącego.

Najnowsza wersja ChatGPT posiada ikonę słuchawek w prawym górnym rogu oraz ikony aparatu i kamery w dolnej części ekranu. Funkcje te działają poprzez konwersję wprowadzonych danych na tekst, co pozwala chatbotowi na generowanie odpowiedzi. Użytkownik otrzymuje odpowiedź w formie głosowej lub tekstowej, w zależności od wybranego trybu.

Jim Glass z MIT, badacz technologii mowy, zauważa, iż wiele zespołów akademickich testuje interfejsy głosowe zintegrowane z dużymi modelami językowymi, uzyskując obiecujące wyniki. Podkreśla, iż choć technologia rozpoznawania mowy znacznie się rozwinęła w ostatnich latach, w wielu językach wciąż pozostawia wiele do życzenia.

Nowe funkcje ChatGPT zostały wprowadzone 25 września. Początkowo będą dostępne tylko w płatnej wersji subskrypcyjnej za 20 dolarów miesięcznie. Aplikacja będzie dostępna na wszystkich rynkach, na których ChatGPT jest już obecny, ale początkowo będzie obsługiwać tylko język angielski.

Idź do oryginalnego materiału