華盛頓大學的研究人員推出了一款開源聊天機器人 Guanaco,旨在與 ChatGPT 的性能相媲美,同時顯著減少訓練所需的時間和資源。Guanaco 以南美駱駝的近親命名,基於 LLaMA 語言模型構建,並採用了一種名爲 QLoRA 的新型微調方法。

元宇宙郵報 (mpost.io)

Guanaco 的創建者聲稱,它的性能可與 ChatGPT 媲美,但訓練時間僅爲一天。這一非凡成就得益於 QLoRA,這是一種語言模型微調技術,可大幅減少訓練所需的 GPU 內存量。ChatGPT 需要高達 780 GB 的 GPU 內存來運行具有 650 億個參數的模型,而 Guanaco 最簡單的版本僅需要 5 GB。

憑藉這些令人印象深刻的效率提升,Guanaco 和類似的開源模型正在挑戰“昂貴的訓練對於最先進的語言模型而言是必需的”這一觀念。Guanaco、Alpaca 和其他訓練成本僅爲其一小部分的模型的出現引發了人們對 GPT 等昂貴模型未來的猜測。

然而,並非所有人都贊同這種對開源模型的樂觀看法。加州大學最近進行的一項研究對羊駝等模型的能力提出了質疑,並對其真正潛力提出了質疑。最初,研究人員得出了與 Guanaco 的創造者類似的結論:經過適當訓練後,開源模型在能力上可以與 GPT 相媲美。進一步的測試揭示了一個重大的侷限性。這些有時被稱爲“Dolly”的模型擅長模仿它們在訓練期間遇到的問題的解決方案。然而,它們很難在沒有明確接觸過的任務上表現出色,落後於更先進的模型。

這一發現表明,投入訓練 GPT 和類似模型的數百萬美元可能並非白費。雖然 Guanaco 及其同類模型表現出了令人鼓舞的結果,但更復雜的模型在某些領域仍然表現出色。值得注意的是,加州大學進行的研究挑戰了開源模型可以完全取代 GPT 等昂貴模型的普遍觀念。

隨着自然語言處理領域的發展,觀察 Guanaco 和其他開源模型與 ChatGPT 等既定基準相比的表現將會很有趣。毫無疑問,高創新率和持續研究將影響語言模型的未來,並決定哪些模型將成爲特定應用的首選。

  • Databricks 宣佈推出 Dolly 2.0,這是首個商用開源 12B Chat-LLM。這是機器學習行業的一項重大進步,讓企業無需投資昂貴的 GPU 集羣即可創建有效的語言模型。Databricks 聘請了 5,000 名員工來創建他們的開源語言模型,其中包括 EleutherAI 的 Pythia-12B 語言模型,該模型採用 MIT 許可。Dolly 2.0 以及相關代碼均採用 MIT 許可。Dolly 2.0 有可能改變行業,是機器學習向前邁出的重要一步。

閱讀有關人工智能的更多信息:

  • 由 GPT 驅動的聊天機器人和醫生 AI 助手正在改變醫療保健

  • SoundStorm:谷歌推出可實時複製語音的恐怖 AI 工具

  • GPT-4 在美國律師資格考試中的表現與其宣稱的相矛盾

《Guanaco 成爲潛在的開源 ChatGPT 競爭對手》一文最先出現在 Metaverse Post 上。