OpenAI zaprezentowało swoje najnowsze osiągnięcie – model GPT-4o, zdolny do analizowania dźwięku, obrazu oraz tekstu w czasie rzeczywistym. Co zaskakujące, model wykazuje niezwykłą szybkość reakcji na otrzymywane sygnały dźwiękowe.

Miłośnicy sztucznej inteligencji niecierpliwie czekali na wydarzenie OpenAI Spring Update – prezentację autorów ChatGPT. Nastrój przed wydarzeniem podkręciły głośne zapowiedzi branżowe o możliwej prezentacji nowej wyszukiwarki internetowej opartej na technologii AI, lecz tym razem uwaga skupiła się na nowym modelu.

GPT-4o działa w czasie rzeczywistym

OpenAI wprowadziło model GPT-4o, który umożliwia bardziej naturalne interakcje. Zgodnie z deklaracjami firmy, GPT-4o reaguje na sygnały dźwiękowe w nawet 232 milisekundy, co średnio daje 320 milisekund reakcji na odpowiedź. Jest to identyczny czas, jak ten w trakcie rozmowy z człowiekiem. Jeśli chodzi o wydajność, model prezentuje się podobnie co GPT-4 Turbo przy analizie tekstu w języku angielskim i wypada jeszcze lepiej w przypadku innych języków.

OpenAI twierdzi, że ich nowy model GPT-4o jest też znacznie lepszy w interpretacji obrazów i dźwięków, w stosunku do modeli, które były dostępne do tej pory. Jak zatem wyglądają możliwości tego nowego narzędzia? Jednym z momentów, które wywarły na mnie największe wrażenie, było nagranie, na którym GPT-4o został poproszony o rozpoczęcie liczenia od liczby jeden do dziesięciu.

Reakcja GPT-4o na komendy dotyczące zmiany tempa była błyskawiczna, wszystko działo się w czasie rzeczywistym. Równie interesujące było kolejne nagranie, w którym GPT-4o wcielił się w rolę nauczyciela języka hiszpańskiego, analizując obiekty widoczne przez kamerę.

Kiedy możemy się spodziewać dostępu do GPT-4o? OpenAI informuje, że funkcje tekstowe i graficzne modelu GPT-4o zaczęły być dostępne już dzisiaj w ChatGPT. Nowy model jest udostępniany w wersji bezpłatnej, a użytkownicy abonamentu Plus mogą korzystać z nawet pięciokrotnie zwiększonymi limitami wiadomości. OpenAI planuje również w najbliższych tygodniach wprowadzenie nowej wersji trybu głosowego GPT-4o w wersji alfa dostępnej dla użytkowników ChatGPT Plus.