区块律动 BlockBeats 10 月 11 日消息,全链数据网络 Chainbase 近日宣布在 HuggingFace 开源其专为加密领域设计的大型语言模型 Theia-Llama-3.1-8B。该模型在困惑度和 BERT 得分上超越了市场主流模型,对加密世界的理解能力超越大多数主流开源大模型。

Chainbase 团队创造性地构建了首个专业的 Web3 数据集,该数据集囊括了 CoinMarketCap 上排名前 2000 的项目各类素材。数据集经过人工和算法筛选,确保训练数据的准确性、多样性和专业性。在此数据集基础上,团队利用 LoRA 技术高效微调模型,并使用 DeepSpeed 等工具加速训练过程。此外,模型量化为 Q8 GGUF 格式,大大降低了内存占用,提升了推理速度。

据悉,Theia-Llama-3.1-8B是Chainbase在加密领域对大型模型的首次尝试,并已成功应用于Chainbase DEMO互动应用TheiaChat,目前该应用日活用户超过30万。