New York Times tiết lộ phương pháp được OpenAI sử dụng để tích lũy hàng triệu giờ bản ghi video trên YouTube nhằm tạo ra lượng dữ liệu khổng lồ cần thiết cho mô hình AI mạnh mẽ GPT-4 của họ. Mặc dù có vẻ như các công ty này đang đi theo cùng một con đường, tạo thành một hàng do những gã khổng lồ Google và Meta dẫn đầu, nhưng lộ trình này đang tăng tốc khi công nghệ AI được nâng cấp. Tất cả những điều này dẫn đến câu hỏi về “khoảng cách kỹ thuật số” và tác động của nó đến khả năng tham gia vào nền kinh tế của cá nhân, đặc biệt là các vấn đề như bản quyền và đạo đức của dữ liệu.

Chiến thuật thu thập dữ liệu táo bạo của OpenAI

OpenAI đã phát hiện và phân tích nội dung YouTube này. Chiến lược này, bất chấp tính chất đổi mới của việc sử dụng tự do, vẫn đề cập đến các nguyên tắc sử dụng hợp lý, vốn là điều kiện tiên quyết cho khả năng hoạt động của công ty này. Ghi video YouTube, một trong những giai đoạn do Google sở hữu cho quá trình học tập AI gây ra mối lo ngại về vi phạm bản quyền và các vấn đề đạo đức liên quan đến việc sử dụng dữ liệu mà không có sự đồng ý của tác giả.

Buồn cười thay, sau khi Google bị chỉ trích vì là công ty sở hữu YouTube vì điều tương tự, họ bị cáo buộc đã tham gia vào các hoạt động như vậy đối với các mô hình AI của mình. Quá trình theo dõi được chia sẻ này rõ ràng là một phần thú vị của báo cáo, điều này tiết lộ thêm về ranh giới đạo đức và pháp lý khó hiểu của các công ty công nghệ trong nỗ lực trí tuệ nhân tạo của họ. Mặt khác, Google đã đề cập rằng họ có thể xin phép người sáng tạo để sử dụng video trước khi đào tạo hệ thống AI về dữ liệu đó, cuối cùng trở thành điểm gây tranh cãi trong câu chuyện.

Bản sửa đổi chính sách quyền riêng tư

Một trong những sự kiện chính của việc này là Google, một biện pháp của công ty nhằm thay đổi chính sách quyền riêng tư của họ vào cuối tháng 6 năm 2023. Do đó, chiến lược này nhằm mục đích nâng cao khả năng của công ty trong việc tận dụng các nguồn dữ liệu có thể truy cập công khai, từ tài liệu Google đến Google Maps đánh giá, để củng cố sự đổi mới do AI dẫn đầu. Điều này cho thấy một hiện tượng rộng lớn hơn trong lĩnh vực công nghệ, nơi các công ty Công nghệ lớn này dẫn đầu trong cả lĩnh vực đổi mới và quyền riêng tư của người dùng khi họ đấu tranh để giải quyết sự cân bằng hợp lý của cả hai.

Giờ đây, với những gã khổng lồ công nghệ này, tiết lộ của OpenAI và Google về hoạt động thu thập dữ liệu mà không có sự đồng ý rõ ràng của họ đã đặt ra câu hỏi liên quan đến quá trình phát triển AI và việc sử dụng dữ liệu có đạo đức. Neil Mohan, Giám đốc điều hành YouTube, đã được Bloomberg trích dẫn về chủ đề này và ông cho biết nền tảng này không cho phép tải xuống các nguồn trái phép này.

Ý nghĩa của ngành và pháp lý

Câu hỏi về tính đạo đức và tính hợp pháp của những nỗ lực thu thập dữ liệu này sau đó được đặt ra vì sự mơ hồ. Một lĩnh vực khác cần cải thiện là vấn đề đạo văn, vì những cách tiếp cận này có thể sáng tạo nhưng cũng gây ra vấn đề về bản quyền. Vấn đề về quyền riêng tư cũng là một mối quan tâm trong ngành này. Tuy nhiên, phạm vi ảnh hưởng của những lỗi này không chỉ giới hạn ở các vấn đề pháp lý và đạo đức mà còn vượt xa hơn thế. Từ sự phong phú, họ kêu gọi sự chú ý đến một cuộc đua công nghệ (công nghệ AI) quan trọng hơn, nhằm mục đích sử dụng dữ liệu để tăng sức mạnh cho những tiến bộ của AI.

Khi những người tiên phong về công nghệ AI như OpenAI và Google có xu hướng nâng cao phạm vi của mô hình AI tiếp theo, cuộc tranh luận xung quanh lượng dữ liệu có thể được sử dụng, những cân nhắc về bảo vệ bản quyền là gì và ý nghĩa xã hội to lớn của các ứng dụng AI sẽ mở rộng. Việc kết hợp đổi mới với đạo đức dẫn đến một bức tranh phức tạp hơn, đòi hỏi phải xây dựng các nguyên tắc điều hành và chính sách rõ ràng.

Hoạt động của OpenAI và Google trong việc lấy video YouTube cho mục đích đào tạo làm nảy sinh vấn đề đa chiều về bản chất chủ quan bao gồm các khía cạnh pháp lý, đạo đức và công nghệ. Do đó, lĩnh vực công nghệ luôn phải đối mặt với những thách thức như đổi mới, quyền riêng tư và đạo đức, nếu không có những thách thức này thì không thể đảm bảo sự tăng trưởng liên tục. Cuộc thảo luận về những vấn đề này sẽ tiếp tục. Tuy nhiên, nó cũng sẽ mở rộng tới mọi bên liên quan trong xã hội, từ các chuyên gia pháp lý đến chính các nhà phát triển AI, để cuối cùng đưa ra giải pháp được đề xuất.

Câu chuyện gốc từ https://www.neowin.net/news/google-reportedly-let-openai-transcribe-a-million-hours-of-youtube-videos-to-train-gpt-4/