Google 指出,本次更新仰賴於 PaLM 2 AI語言模型。據 Google 研究學者 Isaac Caswell指出,PaLM 2 AI 模型在學習高相關性語言時表現特別優異,例如,與印地語相關的阿瓦德語(Awadhi)和馬爾瓦爾語(Marwadi),以及接近法語系的克里奧爾語(French-based creole languages),如塞席爾克里奧爾語(Creole),及毛里裘斯克里奧爾語(Morisien)。
Google 也懂廣東話了
在此一波新增的語言中,Google 翻譯也支援廣東話了。Caswell 表示,廣東話「長期以來都是 Google 翻譯最受歡迎的請求語言之一」。然而,廣東話在書寫上經常與普通話重疊,因此找到合適的數據並訓練模型是一大挑戰。
圖源:GoogleGoogle翻譯也支援粵語了。
此外,Caswell 指出,新增語言中約有四分之一來自非洲,顯示了 Google 對推動非洲語言數位化的重視。
Caswell 受訪時透露,大多數新增語言都有至少一百萬名使用者,且「有些語言的使用者數量達到數億人」。這些語言的納入,擴大了 Google 翻譯的使用範圍,也加強了其在多語言環境中的實用性。
什麼是 PaLM 2?它有多強?
Google 表示,此次語言擴展背後的技術支持,主要來自於 PaLM 2 AI 語言模型的強大學習能力。這一模型不僅能有效學習和理解新語言,還能在相關語言之間建立聯繫,從而提高翻譯的準確性和自然性。
PaLM 2 是 Google於2023 年發布的第二代大型語言訓練模型(LLM),當時 Google 指出,相較於一代 PaLM,二代不論是在數理、邏輯推理、編碼等領域處理能力皆大幅提升。
Google PaLM 2 也可細分為 4 種版本,由大到小分別是「Unicorn、Bison、Otter、Gecko」。它們能在不同種類的裝置中運用,輕量級別的 Gecko 甚至可以直接在行動裝置上離線使用。
Google 表示,PaLM 2 使用超過 100 種語言進行訓練,主要擅長理解與生成自然語言、翻譯、編碼、問答、摘要、創作寫作、數理邏輯、常識推理;尤其語意理解的部分,PaLM 2 能夠讀懂像是猜謎、成語等非字面意義的文字。
本文經授權轉載自:《數位時代》