Автор оригинала: jlwhoo7, компиляция оригинала от Kol: zhouzhou, BlockBeats
Редакционная заметка: в этой статье представлены инструменты и методы, которые помогают улучшить производительность AI-агентов, сосредоточенные на сборе и очистке данных. Рекомендуется множество безкодовых инструментов, таких как инструменты для преобразования веб-сайтов в формат, удобный для LLM, а также инструменты для сбора данных с Twitter и аннотирования документов. Также представлены советы по хранению, подчеркивающие, что организация данных важнее сложной архитектуры. С помощью этих инструментов пользователи могут эффективно упорядочивать данные, предоставляя высококачественные входные данные для обучения AI-агентов.
Вот оригинальный текст (для удобства чтения оригинал был переработан):
Сегодня мы наблюдаем за запуском множества AI-агентов, из которых 99% исчезнут.
Что выделяет успешные проекты? Данные.
Вот некоторые инструменты, которые могут выделить вашего AI-агента.
Хорошие данные = хороший AI.
Представьте это как работающего дата-сайентиста, строящего пайплайн:
Сбор → Очистка → Проверка → Хранение.
Перед оптимизацией векторной базы данных сначала настройте свои примеры с небольшим количеством образцов и подсказками.
Ссылка на твиты с изображениями
Я рассматриваю большинство актуальных проблем AI как «теорию ведра» Стивена Бартлетта — решая их постепенно.
Сначала заложите хорошую основу данных — это основа для построения отличного пайплайна AI-агента.
Вот некоторые отличные инструменты для сбора и очистки данных:
Генератор llms.txt без кода: преобразуйте любой веб-сайт в текст, удобный для LLM.
Ссылка на твиты с изображениями
Нужен генератор Markdown, удобный для LLM? Попробуйте инструменты JinaAI:
Используйте JinaAI для сбора данных с любого сайта и преобразования их в формат Markdown, удобный для LLM.
Добавьте следующий префикс к URL, чтобы получить версию, удобную для LLM: http://r.jina.ai<URL>
Хотите получить данные с Twitter?
Попробуйте инструмент twitter-scraper-finetune от ai16zdao:
Всего одна команда, и вы сможете собрать данные с любого публичного аккаунта Twitter.
(Посмотрите мои предыдущие твиты для получения конкретных инструкций)
Ссылка на твиты с изображениями
Рекомендации по источникам данных: elfa ai (в настоящее время на закрытом тестировании, можно получить доступ, написав tethrees)
Их API предлагает:
Самые обсуждаемые твиты
Интеллектуальный отбор подписчиков
Последние упоминания $
Проверка репутации аккаунта (для фильтрации спама)
Отлично подходит для получения высококачественных данных для обучения AI!
Для аннотирования документов: попробуйте NotebookLM от Google.
Загрузите любой PDF/TXT файл → пусть он сгенерирует примеры с небольшим количеством образцов для ваших данных обучения.
Отлично подходит для создания высококачественных подсказок с небольшим количеством образцов из документов!
Советы по хранению:
Если вы используете CognitiveCore от virtuals io, вы можете напрямую загрузить сгенерированные файлы.
Если вы используете Eliza от ai16zdao, данные можно напрямую сохранять во векторном хранилище.
Профессиональный совет: упорядоченные данные важнее сложной архитектуры!
«Ссылка на оригинал»