OpenAI veröffentlicht ein Update, um Echtzeit-Schlussfolgerungen in Audio, Bild und Text zu ermöglichen

Odaily Planet Daily News OpenAI hat im Oktober vier Aktualisierungen seines Modells vorgenommen, um seinem KI-Modell zu helfen, bessere Gespräche zu führen und die Bilderkennungsfunktionen zu verbessern. Das erste große Update ist die Live-API, die es Entwicklern ermöglicht, KI-generierte Sprachanwendungen mit einer einzigen Eingabeaufforderung zu erstellen und so natürliche Gespräche ähnlich dem erweiterten Sprachmodus von ChatGPT zu ermöglichen. Bisher mussten Entwickler mehrere Modelle „zusammenfügen“, um diese Erlebnisse zu schaffen. Audioeingaben müssen oft vollständig hochgeladen und verarbeitet werden, bevor eine Antwort empfangen wird, was eine höhere Latenz für Echtzeitanwendungen wie Voice-to-Talk-Gespräche bedeutet. Mit den Streaming-Funktionen der Realtime API können Entwickler jetzt sofortige, natürliche Interaktionen erzielen, genau wie bei einem Sprachassistenten. Die API läuft auf GPT-4, das im Mai 2024 veröffentlicht wurde, und kann in Echtzeit Rückschlüsse auf Audio, Bild und Text ziehen. Ein weiteres Update umfasst Feinabstimmungstools für Entwickler, die es ihnen ermöglichen, die aus Bild- und Texteingaben generierten KI-Antworten zu verbessern. Bildbasierte Spinner ermöglichen künstlicher Intelligenz, Bilder besser zu verstehen und dadurch die visuelle Suche und Objekterkennungsfähigkeiten zu verbessern. Der Prozess umfasst Feedback von Menschen, die Beispiele für gute und schlechte Reaktionen für das Training liefern. Zusätzlich zu Sprach- und Bildaktualisierungen führt OpenAI auch „Modelldestillation“ und „Hinweis-Caching“ ein, die es kleineren Modellen ermöglichen, von größeren Modellen zu lernen und Entwicklungskosten und -zeit durch die Wiederverwendung von verarbeitetem Text zu reduzieren. Laut Reuters geht OpenAI davon aus, dass der Umsatz im nächsten Jahr auf 11,6 Milliarden US-Dollar steigen wird, gegenüber 3,7 Milliarden US-Dollar im Jahr 2024. (Cointelegraph)

OpenAI veröffentlicht ein Update, um Echtzeit-Schlussfolgerungen in Audio, Bild und Text zu ermöglichen

Weitere Inhalte des Erstellers entdecken

Aktuelle Nachrichten