Chainbase Unveils Open Source of AI Language Model Focusing on Crypto

Cryptopolitan · 2024-10-11T15:13:01.000Z

Chainbase has released the open-source AI model, Theia-Llama-3.1-8B. It is a language model that focuses on crypto. The company had launched an alpha version of the chatbot called TheiaChat in August. It was released at the time to disclose the features of Theia. Theia training was drawn from two sources The data used to train the model was taken from CoinMarketCap and other research reports. The data of CoinMarketCap used to train and fine-tune Theia-Llama-3.1-8B includes project documents like whitepapers, official blog posts, and news articles. The research reports were obtained from credible online sources to provide in-depth insights into the project’s fundamentals, market influence, and development progress. The blog post further details that the data from these two primary sources also went through manual and algorithmic filtering to reduce redundancy and eliminate errors. Chainbase also used sophisticated techniques in fine-tuning and optimizing the model. The team used LoRA (Low-Rank Adaptation) for efficient fine-tuning. This helped in adapting the base Llama-3.1-8B-Instruct model to the cryptocurrency domain. The training process was enhanced using LLaMA Factory and DeepSpeed, incorporating advanced techniques like ZeRO, offload, sparse attention, 1-bit Adam, and pipeline parallelism to speed up training and reduce memory usage. In addition to fine-tuning, Chainbase optimized the model to prepare it for efficient deployment. This quantization process reduces the model’s memory footprint and speeds up inference while maintaining acceptable accuracy. Chainbase proposed a crypto AI model benchmark To evaluate the performance of Theia-Llama-3.1-8B, Chainbase proposed a benchmark for crypto AI models. The benchmark evaluates models across seven dimensions, including crypto knowledge comprehension and generation, knowledge coverage, and reasoning capabilities. Initial benchmark results focusing on understanding and generation capabilities in the crypto domain show Theia-Llama-3.1-8B outperforming 11 other LLMs. This includes popular models from OpenAI, Google, Meta, Qwen, and DeepSeek. The model achieved a perplexity score of 1.184 and a BERT score of 0.861, surpassing mainstream models currently on the market. Chainbase also stated in their blog post that the performance of Theia-Llama-3.1-8B exceeds that of mainstream models currently available on the market. “Next, we will build larger models and evaluate more dimensions of the models,” Chainbase stated.

Chainbase wydał model AI typu open source, Theia-Llama-3.1-8B. Jest to model językowy, który koncentruje się na kryptografii.
Firma uruchomiła wersję alfa chatbota o nazwie TheiaChat w sierpniu. Została wydana w celu ujawnienia funkcji Theia.
Szkolenia Theia zostały zaczerpnięte z dwóch źródeł
Dane użyte do trenowania modelu zostały pobrane z CoinMarketCap i innych raportów badawczych. Dane CoinMarketCap użyte do trenowania i dostrajania Theia-Llama-3.1-8B obejmują dokumenty projektu, takie jak whitepapery, oficjalne wpisy na blogu i artykuły informacyjne.
Raporty z badań uzyskano z wiarygodnych źródeł internetowych, aby zapewnić dogłębny wgląd w podstawy projektu, wpływ rynku i postęp prac rozwojowych.
Wpis na blogu szczegółowo opisuje, że dane z tych dwóch głównych źródeł przeszły również proces ręcznego i algorytmicznego filtrowania w celu ograniczenia redundancji i wyeliminowania błędów.
Chainbase wykorzystał również zaawansowane techniki do dostrajania i optymalizacji modelu. Zespół wykorzystał LoRA (Low-Rank Adaptation) do wydajnego dostrajania. Pomogło to w dostosowaniu podstawowego modelu Llama-3.1-8B-Instruct do domeny kryptowalut.
Proces szkolenia został udoskonalony dzięki wykorzystaniu LLaMA Factory i DeepSpeed, a także zaawansowanych technik, takich jak ZeRO, odciążenie, rzadka uwaga, 1-bitowy Adam i paralelizm potokowy, aby przyspieszyć szkolenie i zmniejszyć wykorzystanie pamięci.
Oprócz dostrajania Chainbase zoptymalizował model, aby przygotować go do wydajnego wdrożenia. Ten proces kwantyzacji zmniejsza rozmiar pamięci modelu i przyspiesza wnioskowanie, zachowując jednocześnie akceptowalną dokładność.
Chainbase zaproponował benchmark modelu kryptograficznej sztucznej inteligencji
Aby ocenić wydajność Theia-Llama-3.1-8B, Chainbase zaproponował test porównawczy dla modeli kryptograficznej sztucznej inteligencji.
Test ten ocenia modele w siedmiu wymiarach, obejmujących zrozumienie i generowanie wiedzy kryptograficznej, zasięg wiedzy oraz zdolność wnioskowania.
Wstępne wyniki testów porównawczych skupiające się na zrozumieniu i możliwościach generowania w domenie kryptograficznej pokazują, że Theia-Llama-3.1-8B przewyższa 11 innych LLM. Obejmuje to popularne modele z OpenAI, Google, Meta, Qwen i DeepSeek. Model osiągnął wynik perplexity 1,184 i wynik BERT 0,861, przewyższając główne modele obecnie dostępne na rynku.
Chainbase stwierdził również w swoim wpisie na blogu, że wydajność Theia-Llama-3.1-8B przewyższa wydajność głównych modeli dostępnych obecnie na rynku. „Następnie zbudujemy większe modele i ocenimy więcej wymiarów modeli” — stwierdził Chainbase.

Odkryj więcej od twórcy

Najnowsze wiadomości