据 Cointelegraph 报道,人工智能开发商 OpenAI 于 10 月初对其模型进行了多项更新,旨在提高对话能力和图像识别能力。10 月 1 日,OpenAI 宣布了四款新工具,旨在帮助开发人员在其 AI 模型上进行构建。

一项重要更新是 Realtime API,它允许开发人员使用单个提示创建 AI 生成的语音应用程序。该工具通过流式传输音频输入和输出来支持低延迟、多模式体验,从而实现类似于 ChatGPT 的高级语音模式的自然对话。以前,开发人员必须组合多种模型才能实现这些体验,这会导致语音对语音对话等实时应用程序的延迟更高。借助 Realtime API 的流式传输功能,开发人员现在可以实现即时、自然的交互,就像语音助手一样。该 API 运行在 2024 年 5 月发布的 GPT-4 上,它可以实时推理音频、视觉和文本。

另一项更新包括为开发人员提供的微调工具,使他们能够增强从图像和文本输入生成的 AI 响应。基于图像的微调器提高了 AI 理解图像的能力,从而增强了视觉搜索和对象检测能力。此过程涉及人工反馈,其中向 AI 提供了好和坏响应的示例。此外,OpenAI 还引入了“模型蒸馏”和“及时缓存”,使较小的模型能够从较大的模型中学习,并通过重复使用已处理过的文本来减少开发成本和时间。

OpenAI 模型的先进功能是一个重要的卖点,因为该公司很大一部分收入来自企业在 OpenAI 技术上构建自己的应用程序。据路透社报道,OpenAI 预计其收入明年将增至 116 亿美元,高于 2024 年的 37 亿美元。