Nowa funkcja w GPT-4o budzi emocje użytkowników. Szef OpenAI wyjaśnia, dlaczego mają z nią problem

Pokaz nowego modelu ChatGPT stał się przyczyną niemałego zamieszania. Dlatego, aby Szef OpenAI zdecydował się zabrać głos. Wyjaśnia on wszelkie wątpliwości związane z modelem GPT-4o.

logo Open AI
Źródło zdjęć: © Unsplash | BoliviaInteligente

13 maja została zaprezentowana nowa wersja dużego modelu językowego o nazwie GPT-4o. W międzyczasie zdążyła ona już trafić do użytkowników ChatGPT. Co ciekawe częściowy dostęp do niej uzyskały także osoby, korzystające z darmowej wersji tej aplikacji. Jednak największe zainteresowanie wzbudziła prezentacja nowego trybu głosowego, który ma umożliwić prowadzenie z AI wyjątkowo naturalnych konwersacji.

Od tygodnia użytkownicy z całego świata intensywnie testują tryb głosowy ChatGPT. Na TikToku można znaleźć wiele filmów, w których autorzy albo krytykują niezgodność z możliwościami zaprezentowanymi przez OpenAI, albo - co jeszcze ciekawsze - są pełni zachwytów. Wiąże się z tym jednak jeden mały, acz zasadniczy problem.

Nowy tryb głosowy ChatGPT 4o ma zostać udostępniony za kilka tygodni

Na razie użytkownicy wciąż mogą korzystać jedynie z tekstowych możliwości modelu GPT-4o. Mimo że OpenAI wyraźnie zaznaczyło, zarówno podczas prezentacji, jak i w komunikacie prasowym, że nowy tryb głosowy zostanie dodany "w ciągu kilku tygodni", wiele osób tego nie zauważyło.

Co zatem testują i oceniają użytkownicy oraz dziennikarze technologiczni? Korzystają z trybu głosowego, który trafił do aplikacji ChatGPT we wrześniu 2023 roku.

Do całego zamieszania postanowił odnieść się Szef OpenAI. Wyjaśnił, że nowy tryb głosowy nie został jeszcze wprowadzony, choć tryb tekstowy GPT-4o już jest dostępny. Na X (dawniej Twitter) Sam Altman starał się uświadomić użytkownikom, że korzystają ze starej wersji aplikacji.

Jakie są różnice między trybem głosowym w ChatGPT 4o a tym dostępnym w starszej wersji?

Pierwsza wersja trybu głosowego jest - jak na dzisiejsze standardy - dość prymitywna, ponieważ opiera się na trzech różnych sieciach neuronowych. Aplikacja ChatGPT najpierw zamienia mowę na tekst, potem wysyła zaś tekstowe zapytanie do modelu GPT i dopiero uzyskaną od niego odpowiedź zamienia na mowę.

Takie działanie tej funkcji wiąże się z kilkoma problemami. Po pierwsze, działanie trzech różnych systemów jest wolne, co powoduje, że na odpowiedź trzeba czekać kilka sekund, co zabija dynamikę konwersacji. Po drugie, do GPT trafia tylko transkrypcja zapytania. W efekcie aplikacja nie rozpoznaje głosów, tonu wypowiedzi ani dźwięków w tle.

Nowa wersja trybu głosowego ChatGPT jest wolna od tych ograniczeń. Wykorzystuje ona pojedynczą sieć neuronową, zbudowaną od podstaw z myślą o komunikacji werbalnej w czasie rzeczywistym. Na filmach promocyjnych pokazano, jak sztuczna inteligencja reaguje na różne głosy, dźwięki i tony wypowiedzi. Co ciekawe, można jej przerwać w połowie zdania. Wprowadzone usprawnienia mają konkretny cel - komunikacja z AI ma przypominać rozmowę z człowiekiem.

Kto będzie mógł skorzystać z nowego trybu głosowego?

Nowy tryb głosowy zostanie udostępniony publicznie za kilka tygodni, jednak tylko dla użytkowników płatnej usługi ChatGPT Plus. Twórcy zaznaczają, że zdają sobie sprawę, iż rozbudowane możliwości GPT-4o wiążą się z wieloma nowymi zagrożeniami, dlatego w fazie alpha funkcjonalność tej usługi będzie częściowo ograniczona.

W przyszłości ChatGPT ma również otrzymać usprawnione rozpoznawanie obrazu. Umożliwi to prowadzenie konwersacji z AI na temat obrazu przechwytywanego przez kamerę smartfona.

Wybrane dla Ciebie
Gigantyczna porażka rosyjskiej propagandy. Nikt w to nie gra
Gigantyczna porażka rosyjskiej propagandy. Nikt w to nie gra
Mapy Google z nową funkcją. Sprawdź wskaźniki
Mapy Google z nową funkcją. Sprawdź wskaźniki
Jeżowce z układem nerwowym przypominającym mózg
Jeżowce z układem nerwowym przypominającym mózg
Rzymski obóz wojskowy wysoko w Alpach. Niezwykłe odkrycie pełne artefaktów
Rzymski obóz wojskowy wysoko w Alpach. Niezwykłe odkrycie pełne artefaktów
Zaktualizuj Windows 10. Łatka rozwiązuje ważny problem
Zaktualizuj Windows 10. Łatka rozwiązuje ważny problem
Naukowcy ostrzegają. Jeziora w Amazonii parują w wysokich temperaturach
Naukowcy ostrzegają. Jeziora w Amazonii parują w wysokich temperaturach
Zajmuje 15 proc. całego globu. Co skrywa wnętrze Księżyca?
Zajmuje 15 proc. całego globu. Co skrywa wnętrze Księżyca?
Kupił chińską kartę graficzną. Dostał podrobiony sprzęt
Kupił chińską kartę graficzną. Dostał podrobiony sprzęt
Była ukryta po ziemią. Odnaleziono starożytną stolicę sprzed 2700 lat
Była ukryta po ziemią. Odnaleziono starożytną stolicę sprzed 2700 lat
Norma 36,6 st. C już nieaktualna. Temperatura zdrowego człowieka jest inna
Norma 36,6 st. C już nieaktualna. Temperatura zdrowego człowieka jest inna
Wyjątki przy zastrzeganiu numeru PESEL. Co warto wiedzieć?
Wyjątki przy zastrzeganiu numeru PESEL. Co warto wiedzieć?
"Megamiasto" pająków. Odkryli nową największą pajęczynę świata
"Megamiasto" pająków. Odkryli nową największą pajęczynę świata
ZATRZYMAJ SIĘ NA CHWILĘ… TE ARTYKUŁY WARTO PRZECZYTAĆ 👀