OpenAI publikuje aktualizację: umożliwia rozumowanie w czasie rzeczywistym na podstawie dźwięku, obrazu i tekstu

Według wiadomości ChainCatcher, OpenAI dokonało w październiku czterech aktualizacji swojego modelu, aby pomóc modelowi AI w prowadzeniu lepszych rozmów i ulepszeniu możliwości rozpoznawania obrazów. Pierwszą dużą aktualizacją jest Live API, które umożliwia programistom tworzenie aplikacji mowy generowanych przez sztuczną inteligencję za pomocą jednego monitu, umożliwiając naturalne rozmowy podobne do zaawansowanego trybu mowy ChatGPT. Wcześniej programiści musieli „zszyć” wiele modeli, aby stworzyć takie doświadczenia. Wejście audio często wymaga pełnego przesłania i przetworzenia przed otrzymaniem odpowiedzi, co oznacza większe opóźnienia w zastosowaniach czasu rzeczywistego, takich jak rozmowy głosowe. Dzięki możliwościom przesyłania strumieniowego interfejsu Realtime API programiści mogą teraz uzyskać natychmiastowe, naturalne interakcje, zupełnie jak asystent głosowy. Interfejs API działa na platformie GPT-4 wydanej w maju 2024 r. i może w czasie rzeczywistym wnioskować o dźwięku, obrazie i tekście.
Kolejna aktualizacja zawiera narzędzia dostrajające dla programistów, umożliwiające im ulepszenie odpowiedzi AI generowanych na podstawie wprowadzanych obrazów i tekstu. Spinnery oparte na obrazach umożliwiają sztucznej inteligencji lepsze zrozumienie obrazów, zwiększając w ten sposób możliwości wyszukiwania wizualnego i wykrywania obiektów. Proces obejmuje informacje zwrotne od ludzi, którzy dostarczają przykładów dobrych i złych reakcji na szkolenie.
Oprócz aktualizacji mowy i obrazu OpenAI wprowadza także „destylację modelu” i „buforowanie podpowiedzi”, które pozwalają mniejszym modelom uczyć się na podstawie większych modeli oraz zmniejszają koszty i czas opracowywania poprzez ponowne wykorzystanie przetworzonego tekstu. Według Reuters, OpenAI spodziewa się, że przychody wzrosną w przyszłym roku do 11,6 miliarda dolarów, w porównaniu z 3,7 miliarda dolarów oczekiwanych w 2024 roku.

OpenAI publikuje aktualizację: umożliwia rozumowanie w czasie rzeczywistym na podstawie dźwięku, obrazu i tekstu

Odkryj więcej od twórcy

Najnowsze wiadomości