大型語言模型 (LLM) 對企業和行業越來越重要,因爲它們可以幫助實現任務自動化並簡化流程。然而,由於需要高質量的數據,訓練和定製 LLM 可能具有挑戰性。數據質量差和數量不足會對模型準確性產生負面影響,因此數據集準備對於 AI 開發人員來說至關重要。

爲了應對這些挑戰,NVIDIA 推出了一款名爲 NeMo Curator 的綜合數據處理系統。該系統通過解決各種數據質量問題(例如重複文檔、個人身份信息 (PII) 和格式問題)來幫助提高 LLM 性能。NeMo Curator 使用的一些預處理技術包括:

1.

下載數據集並將其提取爲可管理的格式,例如 JSONL。2. 初步文本清理,包括修復 Unicode 問題和分離語言。3. 應用啓發式和高級質量過濾方法,例如 PII 編輯和任務淨化。4. 使用精確、模糊和語義方法進行重複數據刪除。

5. 混合來自多個來源的精選數據集。重複數據刪除對於提高模型訓練效率和確保數據多樣性至關重要。它有助於防止對重複內容的過度擬合併增強泛化能力。重複數據刪除過程包括:

1.精確重複數據刪除:識別並刪除完全相同的文檔。

2. 模糊去重:使用 MinHash 簽名和局部敏感哈希來識別相似文檔。3. 語義去重:採用高級模型來捕獲語義含義並對相似內容進行分組。高級過濾和分類方法使用各種模型根據質量指標來評估和過濾內容。

這些方法包括基於 n-gram 的分類器、BERT 樣式的分類器和用於複雜質量評估的 LLM。PII 編輯和分佈式數據分類可增強數據隱私和組織,確保遵守法規並提高數據集的實用性。合成數據生成 (SDG) 是另一種強大的方法,用於創建模擬現實世界數據特徵同時保持隱私的人工數據集。

SDG 使用外部 LLM 服務來生成多樣化且上下文相關的數據,支持跨模型的領域專業化和知識提煉。通過專注於質量增強、重複數據刪除和合成數據生成,AI 開發人員可以顯著提高其 LLM 的性能和效率。

如需瞭解更多信息和詳細技術,請訪問 NVIDIA 網站。

來源

<p>《大型語言模型性能增強的預處理技術》一文首次出現在 CoinBuzzFeed 上。</p>