Tác giả: Lý Tấn

Biên soạn bởi: Deep Wave TechFlow

DAO dữ liệu đại diện cho một cách để tạo ra các tập dữ liệu mới chất lượng cao và vượt qua các bức tường dữ liệu AI.

Tầm quan trọng của dữ liệu chất lượng cao trong AI được nhấn mạnh khi ký kết các thỏa thuận cấp phép dữ liệu cao cấp giữa OpenAI, News Corp và Reddit. Ngày nay, các mô hình tiên tiến được đào tạo về lượng dữ liệu Internet khổng lồ, chẳng hạn như Common Crawl lập chỉ mục khoảng 10% trang web để đào tạo LLM và chứa hơn 100 nghìn tỷ mã thông báo.

Một cách để cải thiện hơn nữa các mô hình AI là mở rộng và nâng cao dữ liệu mà chúng có thể được đào tạo. Chúng tôi đã thảo luận về các cơ chế về cách tổng hợp dữ liệu, đặc biệt là theo cách phi tập trung. Chúng tôi đặc biệt quan tâm đến việc khám phá cách các phương pháp tiếp cận phi tập trung có thể giúp tạo ra các bộ dữ liệu mới và khen thưởng về mặt tài chính cho những người đóng góp và người sáng tạo.

Trong vài năm qua, một chủ đề thảo luận trong tiền điện tử là khái niệm về DAO dữ liệu, là tập thể các cá nhân tạo, tổ chức và quản lý dữ liệu. Multicoin và các công ty khác đã đề cập đến chủ đề này, nhưng sự phát triển nhanh chóng của trí tuệ nhân tạo là chất xúc tác cho DAO dữ liệu “tại sao bây giờ” mới.

Dữ liệu trong AI ngày nay

Ngày nay, các mô hình AI được đào tạo về dữ liệu công khai, thông qua quan hệ đối tác như thỏa thuận News Corp.-Reddit hoặc bằng cách tìm kiếm dữ liệu trên internet mở. Ví dụ: Llama 3 của Meta đã được đào tạo trên 1,5 nghìn tỷ mã thông báo có nguồn gốc công khai. Những phương pháp này đều có hiệu quả trong việc tổng hợp nhanh chóng lượng lớn dữ liệu, nhưng chúng có những hạn chế về nội dung và cách thức thu thập dữ liệu.

Đầu tiên là “cái gì”: sự phát triển của trí tuệ nhân tạo bị hạn chế bởi những hạn chế về chất lượng và số lượng dữ liệu. Leopold Aschenbrenner từng viết rằng "bức tường dữ liệu" hạn chế sự cải tiến hơn nữa của thuật toán: "Sớm thôi, phương pháp đào tạo trước các mô hình ngôn ngữ lớn ngây thơ trên nhiều dữ liệu lãng phí hơn sẽ bắt đầu gặp phải những tắc nghẽn nghiêm trọng."

Một cách để phá bỏ các bức tường dữ liệu là mở ra khả năng sẵn có của các tập dữ liệu mới. Ví dụ: các công ty mô hình không thể lấy dữ liệu đăng nhập nếu không vi phạm điều khoản dịch vụ của hầu hết các trang web và theo định nghĩa, họ không thể lấy dữ liệu chưa được tổng hợp. Ngoài ra, có một lượng lớn dữ liệu riêng tư hiện nằm ngoài tầm đào tạo của AI: hãy nghĩ đến Google Drive của công ty, Slacks của công ty, dữ liệu sức khỏe cá nhân hoặc tin nhắn riêng tư.

Thứ hai, bằng cách nào: Theo mô hình hiện tại, các công ty tổng hợp dữ liệu sẽ thu được phần lớn giá trị. S-1 của Reddit trích dẫn việc cấp phép dữ liệu là nguồn doanh thu chính được mong đợi: "Chúng tôi dự đoán rằng lợi thế về dữ liệu và sở hữu trí tuệ ngày càng tăng của chúng tôi sẽ tiếp tục là những yếu tố chính của chương trình đào tạo thạc sĩ pháp lý trong tương lai. Người dùng cuối tạo ra nội dung thực tế sẽ không nhận được bất kỳ khoản nào." được hưởng lợi từ các giấy phép này Sự sai lệch này có thể cản trở sự tham gia - đã có các phong trào kiện các công ty AI sáng tạo hoặc từ chối các bộ dữ liệu đào tạo - chưa kể việc tập trung doanh thu vào các mô hình mà không có tác động kinh tế xã hội. được phân phối tới người dùng cuối.

Tác động của dữ liệu DAO

Các vấn đề về dữ liệu trên có một điểm chung: chúng được hưởng lợi từ sự đóng góp trên quy mô lớn từ cơ sở người dùng đại diện, đa dạng. Giá trị của bất kỳ điểm dữ liệu riêng lẻ nào đối với hiệu suất của mô hình có thể không đáng kể, nhưng nhìn chung, một nhóm lớn người dùng có thể tổng hợp các tập dữ liệu mới có giá trị cho việc đào tạo AI. Đây là lúc Data DAO xuất hiện. Thông qua DAO dữ liệu, những người đóng góp dữ liệu không chỉ thấy được lợi ích tài chính mà còn quản lý việc sử dụng và kiếm tiền từ dữ liệu này.

Data DAO có thể giải quyết một số lỗ hổng trong trường dữ liệu hiện tại, bao gồm nhưng không giới hạn ở các khía cạnh sau:

dữ liệu thế giới thực

Trong lĩnh vực cơ sở hạ tầng vật lý phi tập trung (DEPIN), các mạng như Hivemapper thu thập dữ liệu bản đồ toàn cầu mới nhất của thế giới bằng cách khuyến khích chủ sở hữu camera hành trình đóng góp dữ liệu của họ và khuyến khích người dùng thông qua các ứng dụng đóng góp dữ liệu (chẳng hạn như thông tin về việc đóng hoặc sửa đường)). DEPIN có thể được coi là DAO dữ liệu trong thế giới thực, với các bộ dữ liệu được tạo bởi các thiết bị phần cứng và/hoặc mạng người dùng. Dữ liệu này có giá trị thương mại đối với nhiều công ty khác nhau, với doanh thu được trả lại cho những người đóng góp dưới dạng phần thưởng mã thông báo.

dữ liệu sức khỏe cá nhân

Biohacking là một phong trào xã hội trong đó các cá nhân và cộng đồng nghiên cứu sinh học thông qua việc tự thử nghiệm. Ví dụ: các cá nhân có thể sử dụng các loại thuốc tăng cường trí não khác nhau hoặc thử nghiệm các phương pháp điều trị khác nhau hoặc thay đổi môi trường để cải thiện giấc ngủ hoặc thậm chí tự tiêm các loại thuốc thử nghiệm.

DAO dữ liệu có thể mang lại cấu trúc và khuyến khích cho các hoạt động tấn công sinh học này bằng cách tổ chức những người tham gia tiến hành các thí nghiệm chung và thu thập kết quả một cách có hệ thống. Doanh thu từ DAO sức khỏe cá nhân thông qua phòng thí nghiệm nghiên cứu hoặc công ty dược phẩm có thể được trả lại cho những người tham gia đã đóng góp kết quả dưới dạng phần thưởng mã thông báo.

Học tăng cường phản hồi của con người

Tinh chỉnh các mô hình AI thông qua phản hồi của con người (RLHF) liên quan đến việc tận dụng đầu vào của con người để cải thiện hiệu suất của hệ thống AI. Thông thường, người cung cấp phản hồi cần phải là chuyên gia trong lĩnh vực của họ và có thể đánh giá hiệu quả đầu ra của mô hình. Ví dụ: một phòng thí nghiệm có thể tìm kiếm bằng Tiến sĩ Toán học để cải thiện khả năng toán học của LLM của mình. Phần thưởng mã thông báo có thể thu hút và khuyến khích sự tham gia của chuyên gia thông qua lợi nhuận đầu cơ của họ và cung cấp quyền truy cập toàn cầu thông qua việc sử dụng đường ray thanh toán tiền điện tử. Các công ty như Sapien, Fraction và Sahara đang hoạt động trong lĩnh vực này.

dữ liệu riêng tư

Khi dữ liệu công khai dành cho đào tạo AI cạn kiệt, cơ sở cạnh tranh có thể chuyển sang các bộ dữ liệu độc quyền, bao gồm cả dữ liệu người dùng cá nhân. Một lượng lớn dữ liệu chất lượng cao vẫn không thể truy cập được sau các bức tường đăng nhập và tin nhắn trực tiếp, tài liệu riêng tư, v.v. Dữ liệu này không chỉ có thể đào tạo AI cá nhân một cách hiệu quả mà còn chứa thông tin có giá trị không thể truy cập được trên web công cộng.

Tuy nhiên, việc truy cập và sử dụng dữ liệu này đặt ra những thách thức đáng kể, bao gồm các khía cạnh pháp lý và đạo đức. DAO dữ liệu có thể cung cấp giải pháp bằng cách cho phép những người tham gia sẵn sàng tải lên và kiếm tiền từ dữ liệu của họ cũng như quản lý cách sử dụng dữ liệu đó. Ví dụ: Reddit Data DAO cho phép người dùng tải dữ liệu Reddit được xuất từ ​​nền tảng, bao gồm nhận xét, bài đăng và lịch sử bình chọn, vào cơ sở dữ liệu có thể bán hoặc cho các công ty AI thuê theo cách bảo vệ quyền riêng tư. Ưu đãi mã thông báo cho phép người dùng kiếm thu nhập không chỉ từ các giao dịch một lần mà còn từ giá trị được tạo ra bằng cách sử dụng dữ liệu của họ dựa trên mô hình AI.

Câu hỏi mở và thách thức

Mặc dù lợi ích tiềm năng của DAO dữ liệu là rất đáng kể nhưng cũng có những cân nhắc và thách thức.

Tác động bóp méo của khuyến khích

Lịch sử sử dụng các ưu đãi mã thông báo trong không gian tiền điện tử cho thấy các ưu đãi bên ngoài có thể thay đổi hành vi của người dùng. Điều này có ý nghĩa trực tiếp về cách sử dụng ưu đãi mã thông báo để thu thập dữ liệu: ưu đãi có thể làm sai lệch cơ sở người tham gia và loại dữ liệu được đóng góp.

Việc giới thiệu các ưu đãi mã thông báo cũng có thể dẫn đến việc những người tham gia cố gắng tối đa hóa lợi nhuận bằng cách gửi dữ liệu giả mạo hoặc chất lượng thấp. Điều này đặc biệt quan trọng vì cơ hội doanh thu cho các DAO dữ liệu này phụ thuộc vào chất lượng dữ liệu. Nếu dữ liệu đóng góp bị bóp méo sẽ làm giảm giá trị của tập dữ liệu.

Đo lường dữ liệu và phần thưởng

Khái niệm cốt lõi của Data DAO là thưởng cho những người đóng góp cho các bài gửi của họ thông qua các ưu đãi mã thông báo về lâu dài, những phần thưởng này sẽ hội tụ với thu nhập của DAO. Tuy nhiên, việc khen thưởng chính xác những đóng góp dữ liệu khác nhau là rất khó vì giá trị dữ liệu mang tính chủ quan. Ví dụ: trong trường hợp tấn công sinh học: Dữ liệu của một số người dùng có giá trị hơn những người khác không? Nếu vậy, các yếu tố quyết định là gì? Đối với dữ liệu bản đồ: Thông tin bản đồ của một số khu vực địa lý có giá trị hơn những khu vực khác không và làm cách nào để định lượng được sự khác biệt này? Nghiên cứu hiện đang được tiến hành để đo lường giá trị của dữ liệu bằng cách tính toán sự đóng góp gia tăng của nó vào hiệu suất mô hình, nhưng những phương pháp này có thể tốn kém về mặt tính toán.

Ngoài ra, điều quan trọng là phải có các cơ chế mạnh mẽ để xác minh tính xác thực và chính xác của dữ liệu. Nếu không có các biện pháp này, hệ thống có thể dễ bị gửi dữ liệu gian lận (chẳng hạn như tạo tài khoản giả) hoặc tấn công Sybil. Mạng DEPIN cố gắng giải quyết vấn đề này bằng cách tích hợp ở cấp thiết bị phần cứng, nhưng các DAO dữ liệu khác dựa vào sự đóng góp do người dùng điều khiển có thể dễ bị thao túng.

Bản chất gia tăng của dữ liệu mới

Phần lớn mạng công cộng đã được sử dụng để đào tạo, vì vậy, các nhà khai thác dữ liệu DAO phải xem xét liệu các tập dữ liệu được thu thập thông qua các nỗ lực phân tán có thực sự gia tăng hay không, có gia tăng giá trị cho dữ liệu mạng công cộng hiện có hay không và liệu các nhà nghiên cứu có thể hưởng lợi từ dữ liệu này được cấp phép trên nền tảng hay không hoặc có được thông qua các phương tiện khác. Những ý tưởng này nhấn mạnh tầm quan trọng của việc thu thập dữ liệu mới vượt xa dữ liệu hiện có, dẫn đến việc cân nhắc tiếp theo: quy mô tác động và cơ hội doanh thu.

Quy mô cơ hội doanh thu

Về bản chất, DAO dữ liệu đang xây dựng một thị trường hai mặt, kết nối người mua dữ liệu với người đóng góp dữ liệu. Sự thành công của DAO dữ liệu phụ thuộc vào việc thu hút được lượng khách hàng ổn định và đa dạng sẵn sàng trả tiền cho dữ liệu.

DAO dữ liệu cần xác định và xác thực các yêu cầu cuối cùng của mình, đảm bảo rằng cơ hội doanh thu đủ lớn, cả về tổng khối lượng và trên mỗi người đóng góp, để khuyến khích số lượng và chất lượng dữ liệu cần thiết. Ví dụ: ý tưởng tạo DAO dữ liệu người dùng để tổng hợp sở thích cá nhân và dữ liệu duyệt web cho mục đích quảng cáo đã được thảo luận trong nhiều năm, nhưng cuối cùng, doanh thu mà mạng như vậy có thể chuyển cho người dùng có thể sẽ không đáng kể. (Để so sánh, ARPU toàn cầu của Meta vào cuối năm 2023 là 13,12 đô la.) Với việc các công ty AI có kế hoạch chi hàng nghìn tỷ đô la cho đào tạo, doanh thu từ dữ liệu người dùng có thể đủ hấp dẫn để kích hoạt những đóng góp quy mô lớn, tạo ra một câu hỏi thú vị "Tại sao bây giờ" dữ liệu Cơ hội DAO.

Vượt qua bức tường dữ liệu

DAO dữ liệu đại diện cho một con đường đầy hứa hẹn để tạo ra các tập dữ liệu mới chất lượng cao và vượt qua các bức tường dữ liệu AI. Vẫn còn phải xem chính xác làm thế nào để đạt được điều này, nhưng chúng tôi rất vui mừng về những phát triển trong lĩnh vực này.