Cho dù có hoạt động của OpenAI, Google và Meta, AI tài trợ cho lĩnh vực công nghiệp, bao gồm nhiều phương tiện khác nhau như thu thập hoặc tích lũy khối lượng dữ liệu kỹ thuật số khổng lồ theo những cách sáng tạo khác nhau nhưng gây tranh cãi, thì rõ ràng là khả năng và khả năng tự động hóa đang tăng lên. Đáng chú ý, những nỗ lực đòi hỏi các hành động như thực hiện các biện pháp nêu trên (tức là xem xét các giới hạn pháp lý và chính sách của công ty) tương đương với lượng dữ liệu đáng kể được sử dụng để đào tạo các hệ thống AI.

Sáng kiến ​​thì thầm của OpenAI: Khai thác các cuộc hội thoại trên YouTube

Câu chuyện Whisper của chúng tôi mới bắt đầu vào năm ngoái. Sự thiếu hụt trầm trọng các văn bản tiếng Anh hạng nhất gây ra sự chậm trễ trong việc cung cấp giáo dục. Whisper là bước tiếp theo của Google. Nó hiểu được vô số cuộc đối thoại của YouTube và được phát triển dưới dạng văn bản, một ứng dụng chuyển văn bản thành giọng nói. Bản thân công cụ được hỗ trợ bởi AI, bao gồm hơn một triệu giờ video YouTube đang được AI kiểm tra để tạo ra các văn bản mới (về cơ bản là một cuộc trò chuyện mới), đã được sử dụng để đào tạo các mô hình AI được tạo ra từ công nghệ tiên tiến nhất. xuống GPT-4, phiên bản mới nhất của chatbot ChatGPT.

Mặc dù một số nhân viên lập luận rằng đoạn phim Microsoft của OpenAI sẽ ăn cắp ý tưởng của YouTube trên mọi phương diện, đạo đức của hành vi đạo văn vẫn còn gây tranh cãi; Ngoài ra, một số công nhân thừa nhận rằng sẽ không thể phù hợp chính xác với ý định của YouTube. Tương tự, việc thu được sự phản đối trong việc xử lý theo thuật toán các video để trích xuất nội dung văn bản để cung cấp cho A.I. người mẫu có thể bị coi là mối đe dọa đối với bản quyền của người sáng tạo video, gây phẫn nộ.

Meta, công ty mẹ của Facebook và Instagram, cũng lo ngại về việc sử dụng các yếu tố có bản quyền từ các nhà xuất bản như Simon & Schuster, cùng những nhà xuất bản khác. Đồng thời, nó cũng thảo luận về việc mua lại nội dung web chung, có khả năng bị dính vào vi phạm bản quyền.

Cuộc khủng hoảng dữ liệu: Thúc đẩy các phương pháp tiếp cận độc đáo

Việc thu thập dữ liệu đầy tính cạnh tranh giúp ghi nhận vị trí quan trọng của dữ liệu và xác định nó trong quá trình phát triển công nghệ AI. Ngôn ngữ trong AI ra lệnh ngày càng nhiều tập dữ liệu đào tạo, bao gồm cả Khối thịnh vượng chung, được xử lý xuống Wikipedia và Reddit từ bên ngoài các nguồn này ngày nay. Đối với các công ty công nghệ—đặc biệt là những công ty gặp khó khăn trong việc tiếp cận các nguồn dữ liệu rất phổ biến như kho dữ liệu truyền thống—việc tạo ra các mô hình hỗ trợ AI có thể là một giải pháp thay thế đáng mong muốn trong những trường hợp như vậy.

Các công ty công nghệ chỉ ra rằng việc thu thập dữ liệu là cần thiết cho việc đào tạo AI trong khi quy trình tương tự đang được tòa án xem xét về mặt pháp lý. Để bảo vệ mình, OpenAI và Microsoft đã thắng kiện trước cáo buộc về việc sử dụng bất hợp pháp tài liệu có bản quyền chống lại họ. Tuy nhiên, họ cho biết hành động của họ tuân thủ nguyên tắc pháp lý về sử dụng hợp lý. Trong những năm gần đây, số lượng đơn đăng ký của chủ sở hữu bản quyền gửi đến Văn phòng Bản quyền Hoa Kỳ đã vượt quá con số 10.000, điều này cho thấy rõ rằng luật bản quyền trong kỷ nguyên AI là duy nhất và hoàn toàn mới. Do đó, những người chơi chính luôn phải đối mặt với những nguy cơ liên quan đến việc vi phạm nhiều tác phẩm dưới chiêu bài là không có mục đích cấp phép nào cho các mô hình sử dụng AI trên cơ sở này.

Sự bắt buộc đối với các tập dữ liệu lớn

Nhìn chung, công trình của Kaipan, de Jared, một nhà khoa học có quy mô lớn, đã vô tình mang tính hoành tráng trong quá trình phát triển AI. Nội dung theo hướng dữ liệu là một trong những thành phần của AI cần thiết cho quá trình đào tạo, nhưng nó không thể hoạt động tốt nếu không có các mô hình được đào tạo bài bản và vận hành hiệu quả. Với sự phát triển của công nghệ trí tuệ nhân tạo, nhu cầu về dữ liệu để thành công trên thị trường ngày càng tăng cao, khiến các công ty phải đặt ra những câu hỏi liên quan đến luật pháp, đạo đức và quyền riêng tư. Do đó, các thuật toán trí tuệ nhân tạo phải sử dụng những bộ dữ liệu này để thành công trên thị trường.

Hành vi thu thập dữ liệu của V.IP đang bị biến dạng để cải tiến AI; lời thề về phương pháp luận điển hình đang trở nên thô thiển. Cho dù thông qua một trong những cuộc trò chuyện trên YouTube hay việc tạo ra dữ liệu tổng hợp, các công ty này đều là những người đi đầu trong sứ mệnh khám phá các vấn đề thực sự về luật pháp, đạo đức và quyền riêng tư.

Sau này có thể chúng sẽ trở thành trò cười trên biển. Do sự xuất hiện của các bộ dữ liệu khổng lồ cần thiết để thúc đẩy quá trình đổi mới, các nhà lãnh đạo xã hội được yêu cầu tích cực tham gia vào cuộc đối thoại mang tính xây dựng để phát triển các quy tắc và tiêu chuẩn trong đó các nỗ lực đổi mới được cân bằng với các nguyên tắc đạo đức về quyền sở hữu trí tuệ và quyền riêng tư.

Câu chuyện gốc từ: https://www.nytimes.com/2024/04/06/technology/tech-giant-harvest-data-artificial-intelligence.html