Google 指出,本次更新仰赖于  PaLM 2 AI语言模型。据 Google 研究学者 Isaac Caswell指出,PaLM 2 AI 模型在学习高相关性语言时表现特别优异,例如,与印地语相关的阿瓦德语(Awadhi)和马尔瓦尔语(Marwadi),以及接近法语系的克里奥尔语(French-based creole languages),如塞席尔克里奥尔语(Creole),及毛里裘斯克里奥尔语(Morisien)。

Google 也懂广东话了

在此一波新增的语言中,Google 翻译也支援广东话了。Caswell 表示,广东话「长期以来都是 Google 翻译最受欢迎的请求语言之一」。然而,广东话在书写上经常与普通话重叠,因此找到合适的数据并训练模型是一大挑战。

粵語.jpg图源:GoogleGoogle翻译也支援粤语了。

此外,Caswell 指出,新增语言中约有四分之一来自非洲,显示了 Google 对推动非洲语言数位化的重视。

Caswell 受访时透露,大多数新增语言都有至少一百万名使用者,且「有些语言的使用者数量达到数亿人」。这些语言的纳入,扩大了 Google 翻译的使用范围,也加强了其在多语言环境中的实用性。

什么是 PaLM 2?它有多强?

Google 表示,此次语言扩展背后的技术支持,主要来自于 PaLM 2 AI 语言模型的强大学习能力。这一模型不仅能有效学习和理解新语言,还能在相关语言之间建立联系,从而提高翻译的准确性和自然性。

PaLM 2 是 Google于2023 年发布的第二代大型语言训练模型(LLM),当时 Google 指出,相较于一代 PaLM,二代不论是在数理、逻辑推理、编码等领域处理能力皆大幅提升。

Google PaLM 2 也可细分为 4 种版本,由大到小分别是「Unicorn、Bison、Otter、Gecko」。它们能在不同种类的装置中运用,轻量级别的 Gecko 甚至可以直接在行动装置上离线使用。

Google 表示,PaLM 2 使用超过 100 种语言进行训练,主要擅长理解与生成自然语言、翻译、编码、问答、摘要、创作写作、数理逻辑、常识推理;尤其语意理解的部分,PaLM 2 能够读懂像是猜谜、成语等非字面意义的文字。

  • 本文经授权转载自:《数位时代》