Автор оригинала: jlwhoo7, компиляция оригинала от Kol: zhouzhou, BlockBeats

Редакционная заметка: в этой статье представлены инструменты и методы, которые помогают улучшить производительность AI-агентов, сосредоточенные на сборе и очистке данных. Рекомендуется множество безкодовых инструментов, таких как инструменты для преобразования веб-сайтов в формат, удобный для LLM, а также инструменты для сбора данных с Twitter и аннотирования документов. Также представлены советы по хранению, подчеркивающие, что организация данных важнее сложной архитектуры. С помощью этих инструментов пользователи могут эффективно упорядочивать данные, предоставляя высококачественные входные данные для обучения AI-агентов.

Вот оригинальный текст (для удобства чтения оригинал был переработан):

Сегодня мы наблюдаем за запуском множества AI-агентов, из которых 99% исчезнут.

Что выделяет успешные проекты? Данные.

Вот некоторые инструменты, которые могут выделить вашего AI-агента.

Хорошие данные = хороший AI.

Представьте это как работающего дата-сайентиста, строящего пайплайн:

Сбор → Очистка → Проверка → Хранение.

Перед оптимизацией векторной базы данных сначала настройте свои примеры с небольшим количеством образцов и подсказками.

Ссылка на твиты с изображениями

Я рассматриваю большинство актуальных проблем AI как «теорию ведра» Стивена Бартлетта — решая их постепенно.

Сначала заложите хорошую основу данных — это основа для построения отличного пайплайна AI-агента.

Вот некоторые отличные инструменты для сбора и очистки данных:

Генератор llms.txt без кода: преобразуйте любой веб-сайт в текст, удобный для LLM.

Ссылка на твиты с изображениями

Нужен генератор Markdown, удобный для LLM? Попробуйте инструменты JinaAI:

Используйте JinaAI для сбора данных с любого сайта и преобразования их в формат Markdown, удобный для LLM.

Добавьте следующий префикс к URL, чтобы получить версию, удобную для LLM: http://r.jina.ai<URL>

Хотите получить данные с Twitter?

Попробуйте инструмент twitter-scraper-finetune от ai16zdao:

Всего одна команда, и вы сможете собрать данные с любого публичного аккаунта Twitter.

(Посмотрите мои предыдущие твиты для получения конкретных инструкций)

Ссылка на твиты с изображениями

Рекомендации по источникам данных: elfa ai (в настоящее время на закрытом тестировании, можно получить доступ, написав tethrees)

Их API предлагает:

Самые обсуждаемые твиты

Интеллектуальный отбор подписчиков

Последние упоминания $

Проверка репутации аккаунта (для фильтрации спама)

Отлично подходит для получения высококачественных данных для обучения AI!

Для аннотирования документов: попробуйте NotebookLM от Google.

Загрузите любой PDF/TXT файл → пусть он сгенерирует примеры с небольшим количеством образцов для ваших данных обучения.

Отлично подходит для создания высококачественных подсказок с небольшим количеством образцов из документов!

Советы по хранению:

Если вы используете CognitiveCore от virtuals io, вы можете напрямую загрузить сгенерированные файлы.

Если вы используете Eliza от ai16zdao, данные можно напрямую сохранять во векторном хранилище.

Профессиональный совет: упорядоченные данные важнее сложной архитектуры!

«Ссылка на оригинал»