Variant Li Jin：克服 AI 数据墙，数据 DAO 正当时

深潮 TechFlow · 2024-06-18T03:13:07.000Z

作者：Li Jin 编译：深潮TechFlow 数据 DAO 代表了生成新的高质量数据集和克服 AI 数据墙的一条途径。随着OpenAI与News Corp和Reddit之间的高调数据许可协议的达成，凸显了高质量数据在AI中的重要性。如今，前沿模型已在大量互联网数据上进行了训练，例如，Common Crawl 索引了大约10% 的网页，用于LLM训练并包含超过 100 万亿个令牌。进一步改进人工智能模型的一个途径是扩大和增强它们可以训练的数据。我们一直在讨论如何聚合数据的机制，特别是以去中心化的方式。我们尤其感兴趣的是探索分散式方法如何帮助生成新的数据集，并从经济上奖励贡献者和创造者。在过去几年中，加密货币内部讨论的一个话题是数据 DAO 的概念，即创建、组织和管理数据的个人集体。Multicoin和其他公司已经涵盖了这个话题，但人工智能的快速发展是数据DAO新的“为什么是现在”的催化剂。当今 AI 中的数据如今，人工智能模型都是通过新闻集团和 Reddit 交易等合作方式，或通过在开放互联网上搜索数据，在公共数据上进行训练的。例如，Meta 的 Llama 3 就是在 15 万亿个公开来源的代币上训练出来的。这些方法都能有效地快速聚合大量数据，但它们在收集数据的内容和方式上都有局限性。首先是 "什么"：人工智能的发展受到数据质量和数量的瓶颈制约。Leopold Aschenbrenner 曾撰文指出，"数据墙 "限制了算法的进一步改进： "很快，在更多废旧数据上预训大型语言模型的天真方法就会开始遭遇严重瓶颈"。推倒数据墙的方法之一是开放新数据集的可用性。例如，模型公司无法在不违反大多数网站服务条款的情况下获取登录数据，而且顾名思义，它们也无法获取尚未汇总的数据。此外，还有大量私人数据是目前人工智能训练无法触及的：比如企业的 Google Drives、公司的 Slacks、个人健康数据或私人信息。第二，如何：在现有模式下，汇集数据的公司获取了大部分价值。Reddit 的 S-1 将数据授权作为主要的预期收入来源： "我们预计，我们不断增长的数据优势和知识产权将继续成为未来法律硕士培训的关键要素。产生实际内容的最终用户并没有从这些许可交易或人工智能模型本身中获得任何经济利益。这种错位可能会扼杀人们的参与--现在已经出现了起诉生成式人工智能公司或选择退出训练数据集的运动。更不用说将收入集中在模型公司或平台手中，而不分给最终用户的社会经济影响了。数据DAO的影响上述数据问题有一个共同点：它们受益于来自多样化、代表性用户群的大规模贡献。任何单个数据点对模型性能的价值可能微不足道，但集体上，一个大型用户群体可以聚合出对AI训练有价值的新数据集。这正是数据DAO的用武之地。通过数据DAO，数据贡献者不仅可以看到经济收益，还可以管理这些数据的使用和货币化。数据DAO可以解决当前数据领域的一些空白，包括但不限于以下几个方面：现实世界数据在去中心化物理基础设施（DEPIN）领域，类似Hivemapper的网络通过激励行车记录仪所有者贡献他们的数据来收集世界最新的全球地图数据，并通过应用程序激励用户贡献数据（例如道路封闭或维修信息）。DEPIN可以被视为现实世界的数据DAO，数据集由硬件设备和/或用户网络生成。这些数据对各种公司具有商业价值，收入以代币奖励的形式返还给贡献者。个人健康数据生物黑客是一种社会运动，个人和社区通过自我实验研究生物学。例如，个人可能会消费不同的脑功能增强药物，或测试不同的治疗方法或环境变化以改善睡眠，甚至自我注射实验药物。数据DAO可以为这些生物黑客活动带来结构和激励，通过组织参与者进行共同实验并系统地收集结果。个人健康DAO通过研究实验室或制药公司的收入可以以代币奖励的形式返还给贡献结果的参与者。人类反馈强化学习通过人类反馈进行AI模型的微调（RLHF）涉及利用人类输入来提高AI系统的性能。通常，反馈提供者需要是其领域的专家，能够有效评估模型的输出。例如，实验室可能会寻求数学博士来提高其LLM的数学能力。代币奖励可以通过其投机性收益来吸引和激励专家参与，并通过使用加密支付轨道提供全球访问权限。像 Sapien、Fraction 和 Sahara 这样的公司正在这个领域工作。私有数据随着用于AI训练的公开数据逐渐枯竭，竞争的基础可能会转向专有数据集，包括私有用户数据。大量高质量数据仍然在登录墙和直接消息、私人文档等后面无法访问。这些数据不仅可以有效地训练个人AI，还包含公共网络上无法访问的有价值信息。然而，访问和利用这些数据面临重大挑战，包括法律和道德方面。数据DAO可以通过允许愿意的参与者上传和货币化他们的数据并管理其使用方式来提供解决方案。例如，Reddit数据DAO允许用户上传从平台导出的Reddit数据，包括评论、帖子和投票历史，进入一个数据库，可以以隐私保护的方式出售或出租给AI公司。代币激励允许用户不仅通过一次性交易获得收入，还可以基于AI模型使用其数据所创造的价值获得收益。开放问题与挑战虽然数据DAO的潜在好处显著，但也存在一些考虑和挑战。激励的扭曲影响从加密领域使用代币激励的历史中可以看出，外在激励会改变用户行为。这直接影响到利用代币激励进行数据收集的方式：激励可能会扭曲参与者基础和所贡献的数据类型。引入代币激励还可能导致参与者试图通过提交低质量或伪造数据来最大化收益。这一点尤为重要，因为这些数据DAO的收入机会取决于数据质量。如果贡献数据被扭曲，将削弱数据集的价值。数据测量和奖励数据DAO的核心理念是通过代币激励奖励贡献者的提交，长期来看这些奖励会与DAO的收入趋同。然而，准确奖励不同数据贡献的难度较大，因为数据价值具有主观性。例如，在生物黑客的例子中：某些用户的数据是否比其他用户更有价值？如果是，决定因素是什么？对于地图数据：某些地理区域的地图信息是否比其他区域更有价值，如何量化这种差异？目前在通过计算数据对模型性能的增量贡献来衡量数据价值的研究正在进行，但这些方法可能计算量很大。此外，建立健全的机制来验证数据的真实性和准确性至关重要。没有这些措施，系统可能容易受到欺诈性数据提交（例如创建虚假账户）或Sybil攻击的影响。DEPIN网络试图通过在硬件设备层面进行集成来解决这一问题，但其他依赖用户驱动贡献的数据DAO可能容易受到操纵。新数据的增量性大部分公开网络已经被用于训练，因此数据DAO运营者必须考虑通过分布式努力收集的数据集是否真正是增量的，是否对现有的公开网络数据有附加价值，以及研究人员是否可以从平台上许可这些数据或通过其他方式获取。这些想法强调了收集超越现有数据的新数据的重要性，这也引出了下一个考虑因素：影响的规模和收入机会。收入机会的规模本质上，数据DAO正在构建一个双边市场，将数据买家与数据贡献者连接起来。数据DAO的成功取决于吸引一个稳定且多样化的客户群体愿意为数据支付费用。数据DAO需要识别和验证其最终需求，确保收入机会足够大，无论是总量上还是每个贡献者的收入上，以激励所需的数据数量和质量。例如，多年来一直在讨论创建一个用户数据DAO以汇集个人偏好和浏览数据用于广告目的的想法，但最终，这样一个网络能够传递给用户的收入可能是微不足道的。（作为对比，Meta在2023年底的全球ARPU为13.12美元。）随着AI公司计划花费数万亿美元进行训练，用户数据的收入可能足够诱人，以引发大规模贡献，提出了一个有趣的“为什么现在”数据DAO的机会。克服数据墙数据DAO代表了一条生成新高质量数据集并克服AI数据墙的潜在有希望的路径。具体如何实现尚待观察，但我们对这一领域的发展充满期待。

Tác giả: Lý Tấn
Biên soạn bởi: Deep Wave TechFlow
DAO dữ liệu đại diện cho một cách để tạo ra các tập dữ liệu mới chất lượng cao và vượt qua các bức tường dữ liệu AI.
Tầm quan trọng của dữ liệu chất lượng cao trong AI được nhấn mạnh khi ký kết các thỏa thuận cấp phép dữ liệu cao cấp giữa OpenAI, News Corp và Reddit. Ngày nay, các mô hình tiên tiến được đào tạo về lượng dữ liệu Internet khổng lồ, chẳng hạn như Common Crawl lập chỉ mục khoảng 10% trang web để đào tạo LLM và chứa hơn 100 nghìn tỷ mã thông báo.
Một cách để cải thiện hơn nữa các mô hình AI là mở rộng và nâng cao dữ liệu mà chúng có thể được đào tạo. Chúng tôi đã thảo luận về các cơ chế về cách tổng hợp dữ liệu, đặc biệt là theo cách phi tập trung. Chúng tôi đặc biệt quan tâm đến việc khám phá cách các phương pháp tiếp cận phi tập trung có thể giúp tạo ra các bộ dữ liệu mới và khen thưởng về mặt tài chính cho những người đóng góp và người sáng tạo.
Trong vài năm qua, một chủ đề thảo luận trong tiền điện tử là khái niệm về DAO dữ liệu, là tập thể các cá nhân tạo, tổ chức và quản lý dữ liệu. Multicoin và các công ty khác đã đề cập đến chủ đề này, nhưng sự phát triển nhanh chóng của trí tuệ nhân tạo là chất xúc tác cho DAO dữ liệu “tại sao bây giờ” mới.
Dữ liệu trong AI ngày nay
Ngày nay, các mô hình AI được đào tạo về dữ liệu công khai, thông qua quan hệ đối tác như thỏa thuận News Corp.-Reddit hoặc bằng cách tìm kiếm dữ liệu trên internet mở. Ví dụ: Llama 3 của Meta đã được đào tạo trên 1,5 nghìn tỷ mã thông báo có nguồn gốc công khai. Những phương pháp này đều có hiệu quả trong việc tổng hợp nhanh chóng lượng lớn dữ liệu, nhưng chúng có những hạn chế về nội dung và cách thức thu thập dữ liệu.
Đầu tiên là “cái gì”: sự phát triển của trí tuệ nhân tạo bị hạn chế bởi những hạn chế về chất lượng và số lượng dữ liệu. Leopold Aschenbrenner từng viết rằng "bức tường dữ liệu" hạn chế sự cải tiến hơn nữa của thuật toán: "Sớm thôi, phương pháp đào tạo trước các mô hình ngôn ngữ lớn ngây thơ trên nhiều dữ liệu lãng phí hơn sẽ bắt đầu gặp phải những tắc nghẽn nghiêm trọng."
Một cách để phá bỏ các bức tường dữ liệu là mở ra khả năng sẵn có của các tập dữ liệu mới. Ví dụ: các công ty mô hình không thể lấy dữ liệu đăng nhập nếu không vi phạm điều khoản dịch vụ của hầu hết các trang web và theo định nghĩa, họ không thể lấy dữ liệu chưa được tổng hợp. Ngoài ra, có một lượng lớn dữ liệu riêng tư hiện nằm ngoài tầm đào tạo của AI: hãy nghĩ đến Google Drive của công ty, Slacks của công ty, dữ liệu sức khỏe cá nhân hoặc tin nhắn riêng tư.
Thứ hai, bằng cách nào: Theo mô hình hiện tại, các công ty tổng hợp dữ liệu sẽ thu được phần lớn giá trị. S-1 của Reddit trích dẫn việc cấp phép dữ liệu là nguồn doanh thu chính được mong đợi: "Chúng tôi dự đoán rằng lợi thế về dữ liệu và sở hữu trí tuệ ngày càng tăng của chúng tôi sẽ tiếp tục là những yếu tố chính của chương trình đào tạo thạc sĩ pháp lý trong tương lai. Người dùng cuối tạo ra nội dung thực tế sẽ không nhận được bất kỳ khoản nào." được hưởng lợi từ các giấy phép này Sự sai lệch này có thể cản trở sự tham gia - đã có các phong trào kiện các công ty AI sáng tạo hoặc từ chối các bộ dữ liệu đào tạo - chưa kể việc tập trung doanh thu vào các mô hình mà không có tác động kinh tế xã hội. được phân phối tới người dùng cuối.
Tác động của dữ liệu DAO
Các vấn đề về dữ liệu trên có một điểm chung: chúng được hưởng lợi từ sự đóng góp trên quy mô lớn từ cơ sở người dùng đại diện, đa dạng. Giá trị của bất kỳ điểm dữ liệu riêng lẻ nào đối với hiệu suất của mô hình có thể không đáng kể, nhưng nhìn chung, một nhóm lớn người dùng có thể tổng hợp các tập dữ liệu mới có giá trị cho việc đào tạo AI. Đây là lúc Data DAO xuất hiện. Thông qua DAO dữ liệu, những người đóng góp dữ liệu không chỉ thấy được lợi ích tài chính mà còn quản lý việc sử dụng và kiếm tiền từ dữ liệu này.
Data DAO có thể giải quyết một số lỗ hổng trong trường dữ liệu hiện tại, bao gồm nhưng không giới hạn ở các khía cạnh sau:
dữ liệu thế giới thực
Trong lĩnh vực cơ sở hạ tầng vật lý phi tập trung (DEPIN), các mạng như Hivemapper thu thập dữ liệu bản đồ toàn cầu mới nhất của thế giới bằng cách khuyến khích chủ sở hữu camera hành trình đóng góp dữ liệu của họ và khuyến khích người dùng thông qua các ứng dụng đóng góp dữ liệu (chẳng hạn như thông tin về việc đóng hoặc sửa đường)). DEPIN có thể được coi là DAO dữ liệu trong thế giới thực, với các bộ dữ liệu được tạo bởi các thiết bị phần cứng và/hoặc mạng người dùng. Dữ liệu này có giá trị thương mại đối với nhiều công ty khác nhau, với doanh thu được trả lại cho những người đóng góp dưới dạng phần thưởng mã thông báo.
dữ liệu sức khỏe cá nhân
Biohacking là một phong trào xã hội trong đó các cá nhân và cộng đồng nghiên cứu sinh học thông qua việc tự thử nghiệm. Ví dụ: các cá nhân có thể sử dụng các loại thuốc tăng cường trí não khác nhau hoặc thử nghiệm các phương pháp điều trị khác nhau hoặc thay đổi môi trường để cải thiện giấc ngủ hoặc thậm chí tự tiêm các loại thuốc thử nghiệm.
DAO dữ liệu có thể mang lại cấu trúc và khuyến khích cho các hoạt động tấn công sinh học này bằng cách tổ chức những người tham gia tiến hành các thí nghiệm chung và thu thập kết quả một cách có hệ thống. Doanh thu từ DAO sức khỏe cá nhân thông qua phòng thí nghiệm nghiên cứu hoặc công ty dược phẩm có thể được trả lại cho những người tham gia đã đóng góp kết quả dưới dạng phần thưởng mã thông báo.
Học tăng cường phản hồi của con người
Tinh chỉnh các mô hình AI thông qua phản hồi của con người (RLHF) liên quan đến việc tận dụng đầu vào của con người để cải thiện hiệu suất của hệ thống AI. Thông thường, người cung cấp phản hồi cần phải là chuyên gia trong lĩnh vực của họ và có thể đánh giá hiệu quả đầu ra của mô hình. Ví dụ: một phòng thí nghiệm có thể tìm kiếm bằng Tiến sĩ Toán học để cải thiện khả năng toán học của LLM của mình. Phần thưởng mã thông báo có thể thu hút và khuyến khích sự tham gia của chuyên gia thông qua lợi nhuận đầu cơ của họ và cung cấp quyền truy cập toàn cầu thông qua việc sử dụng đường ray thanh toán tiền điện tử. Các công ty như Sapien, Fraction và Sahara đang hoạt động trong lĩnh vực này.
dữ liệu riêng tư
Khi dữ liệu công khai dành cho đào tạo AI cạn kiệt, cơ sở cạnh tranh có thể chuyển sang các bộ dữ liệu độc quyền, bao gồm cả dữ liệu người dùng cá nhân. Một lượng lớn dữ liệu chất lượng cao vẫn không thể truy cập được sau các bức tường đăng nhập và tin nhắn trực tiếp, tài liệu riêng tư, v.v. Dữ liệu này không chỉ có thể đào tạo AI cá nhân một cách hiệu quả mà còn chứa thông tin có giá trị không thể truy cập được trên web công cộng.
Tuy nhiên, việc truy cập và sử dụng dữ liệu này đặt ra những thách thức đáng kể, bao gồm các khía cạnh pháp lý và đạo đức. DAO dữ liệu có thể cung cấp giải pháp bằng cách cho phép những người tham gia sẵn sàng tải lên và kiếm tiền từ dữ liệu của họ cũng như quản lý cách sử dụng dữ liệu đó. Ví dụ: Reddit Data DAO cho phép người dùng tải dữ liệu Reddit được xuất từ ​​nền tảng, bao gồm nhận xét, bài đăng và lịch sử bình chọn, vào cơ sở dữ liệu có thể bán hoặc cho các công ty AI thuê theo cách bảo vệ quyền riêng tư. Ưu đãi mã thông báo cho phép người dùng kiếm thu nhập không chỉ từ các giao dịch một lần mà còn từ giá trị được tạo ra bằng cách sử dụng dữ liệu của họ dựa trên mô hình AI.
Câu hỏi mở và thách thức
Mặc dù lợi ích tiềm năng của DAO dữ liệu là rất đáng kể nhưng cũng có những cân nhắc và thách thức.
Tác động bóp méo của khuyến khích
Lịch sử sử dụng các ưu đãi mã thông báo trong không gian tiền điện tử cho thấy các ưu đãi bên ngoài có thể thay đổi hành vi của người dùng. Điều này có ý nghĩa trực tiếp về cách sử dụng ưu đãi mã thông báo để thu thập dữ liệu: ưu đãi có thể làm sai lệch cơ sở người tham gia và loại dữ liệu được đóng góp.
Việc giới thiệu các ưu đãi mã thông báo cũng có thể dẫn đến việc những người tham gia cố gắng tối đa hóa lợi nhuận bằng cách gửi dữ liệu giả mạo hoặc chất lượng thấp. Điều này đặc biệt quan trọng vì cơ hội doanh thu cho các DAO dữ liệu này phụ thuộc vào chất lượng dữ liệu. Nếu dữ liệu đóng góp bị bóp méo sẽ làm giảm giá trị của tập dữ liệu.
Đo lường dữ liệu và phần thưởng
Khái niệm cốt lõi của Data DAO là thưởng cho những người đóng góp cho các bài gửi của họ thông qua các ưu đãi mã thông báo về lâu dài, những phần thưởng này sẽ hội tụ với thu nhập của DAO. Tuy nhiên, việc khen thưởng chính xác những đóng góp dữ liệu khác nhau là rất khó vì giá trị dữ liệu mang tính chủ quan. Ví dụ: trong trường hợp tấn công sinh học: Dữ liệu của một số người dùng có giá trị hơn những người khác không? Nếu vậy, các yếu tố quyết định là gì? Đối với dữ liệu bản đồ: Thông tin bản đồ của một số khu vực địa lý có giá trị hơn những khu vực khác không và làm cách nào để định lượng được sự khác biệt này? Nghiên cứu hiện đang được tiến hành để đo lường giá trị của dữ liệu bằng cách tính toán sự đóng góp gia tăng của nó vào hiệu suất mô hình, nhưng những phương pháp này có thể tốn kém về mặt tính toán.
Ngoài ra, điều quan trọng là phải có các cơ chế mạnh mẽ để xác minh tính xác thực và chính xác của dữ liệu. Nếu không có các biện pháp này, hệ thống có thể dễ bị gửi dữ liệu gian lận (chẳng hạn như tạo tài khoản giả) hoặc tấn công Sybil. Mạng DEPIN cố gắng giải quyết vấn đề này bằng cách tích hợp ở cấp thiết bị phần cứng, nhưng các DAO dữ liệu khác dựa vào sự đóng góp do người dùng điều khiển có thể dễ bị thao túng.
Bản chất gia tăng của dữ liệu mới
Phần lớn mạng công cộng đã được sử dụng để đào tạo, vì vậy, các nhà khai thác dữ liệu DAO phải xem xét liệu các tập dữ liệu được thu thập thông qua các nỗ lực phân tán có thực sự gia tăng hay không, có gia tăng giá trị cho dữ liệu mạng công cộng hiện có hay không và liệu các nhà nghiên cứu có thể hưởng lợi từ dữ liệu này được cấp phép trên nền tảng hay không hoặc có được thông qua các phương tiện khác. Những ý tưởng này nhấn mạnh tầm quan trọng của việc thu thập dữ liệu mới vượt xa dữ liệu hiện có, dẫn đến việc cân nhắc tiếp theo: quy mô tác động và cơ hội doanh thu.
Quy mô cơ hội doanh thu
Về bản chất, DAO dữ liệu đang xây dựng một thị trường hai mặt, kết nối người mua dữ liệu với người đóng góp dữ liệu. Sự thành công của DAO dữ liệu phụ thuộc vào việc thu hút được lượng khách hàng ổn định và đa dạng sẵn sàng trả tiền cho dữ liệu.
DAO dữ liệu cần xác định và xác thực các yêu cầu cuối cùng của mình, đảm bảo rằng cơ hội doanh thu đủ lớn, cả về tổng khối lượng và trên mỗi người đóng góp, để khuyến khích số lượng và chất lượng dữ liệu cần thiết. Ví dụ: ý tưởng tạo DAO dữ liệu người dùng để tổng hợp sở thích cá nhân và dữ liệu duyệt web cho mục đích quảng cáo đã được thảo luận trong nhiều năm, nhưng cuối cùng, doanh thu mà mạng như vậy có thể chuyển cho người dùng có thể sẽ không đáng kể. (Để so sánh, ARPU toàn cầu của Meta vào cuối năm 2023 là 13,12 đô la.) Với việc các công ty AI có kế hoạch chi hàng nghìn tỷ đô la cho đào tạo, doanh thu từ dữ liệu người dùng có thể đủ hấp dẫn để kích hoạt những đóng góp quy mô lớn, tạo ra một câu hỏi thú vị "Tại sao bây giờ" dữ liệu Cơ hội DAO.
Vượt qua bức tường dữ liệu
DAO dữ liệu đại diện cho một con đường đầy hứa hẹn để tạo ra các tập dữ liệu mới chất lượng cao và vượt qua các bức tường dữ liệu AI. Vẫn còn phải xem chính xác làm thế nào để đạt được điều này, nhưng chúng tôi rất vui mừng về những phát triển trong lĩnh vực này.

Khám phá thêm từ Nhà sáng tạo nội dung

Tin tức mới nhất

Khám phá thêm từ Nhà sáng tạo nội dung

Tin tức mới nhất

Bài viết thịnh hành