Google Unveils Gemini 2.0 Flash AI Model, Now Accessible To Developers

科技公司谷歌宣布推出Gemini 2.0,这是其Gemini系列中的最新AI模型,首先推出名为Gemini 2.0 Flash的实验版本。

在Gemini 1.5 Flash取得成功的基础上,Gemini 2.0 Flash 提供了更好的性能,同时保持快速响应时间。值得注意的是,新型号在关键基准测试中以两倍速度超越了1.5 Pro。此外,Gemini 2.0 Flash引入了扩展功能,包括对多模态输入(如图像、视频和音频)的支持,以及与AI生成的图像和可调多语言文本到语音(TTS)音频配对的多模态输出。该AI模型还可以原生调用工具,如Google搜索、执行代码和访问用户定义的第三方功能。

目前可通过Google AI Studio和Vertex AI的Gemini API向开发者提供,2.0 Flash的实验版本支持文本输出的多模态输入。高级功能如文本到语音和原生图像生成对早期访问合作伙伴可用,预计在1月份会有更广泛的可用性,届时还将推出更多模型规模。

为了进一步支持开发者创建动态、互动的应用程序,谷歌还推出了新的多模态实时应用程序编程接口(API)。该API允许实时音频和视频流输入,以及集成多种工具以实现组合功能的能力。

从今天开始,全球用户可以通过在桌面和移动网页平台上从模型下拉菜单中选择,尝试Gemini 2.0 Flash的实验性聊天优化版本。该模型也将在不久的将来在Gemini移动应用程序上提供。

谷歌通过研究项目探索Gemini 2.0 Flash的能力

Gemini 2.0 Flash引入了增强用户交互的先进能力,包括多模态推理、长上下文理解、复杂指令处理、规划、组合函数调用和与本地工具的无缝集成。这些功能结合改进的延迟,共同为新一代自主AI体验奠定基础。

目前,谷歌正在研究AI代理如何通过旨在提高生产力和简化工作流程的原型帮助人们完成现实世界的任务。示例包括更新后的Astra项目,一个专注于通用AI助手潜在能力的研究计划,新项目Mariner重新构想人类与代理的互动,从基于浏览器的体验开始,以及Jules,一个旨在支持开发者工作的AI驱动编码助手。通过在这些项目中利用Gemini 2.0 Flash,谷歌能够有效评估其能力并取得更好的成果,突显了新模型的巨大潜力。

谷歌发布Gemini 2.0 Flash AI模型,现已向开发者开放的文章首发于Metaverse Post。