Khi thảo luận về cuộc tranh luận gần đây về cách Open và Google làm cho dữ liệu của họ phù hợp làm mô hình, bạn sẽ nhận thấy rằng hai thuật ngữ chi phối cuộc tranh luận nhiều hơn: mở và Google. Các bài báo đăng trên The Wall Street Journal và NY Times gần đây minh họa rằng cách các công ty liên quan đến AI thu thập dữ liệu không đạt yêu cầu và gây ra vấn đề đau đầu về dữ liệu nào là đúng và góc độ đạo đức nào được sử dụng trong việc tạo ra hệ thống liên quan đến AI .

Chiến thuật đáng ngờ của OpenAI

Tuy nhiên, vào thời kỳ đỉnh cao, New York Times nhấn mạnh những kết quả lớn hơn mà Open AI đặt ra với Whisper. Mô hình chuyển âm thanh thành văn bản này được nâng cao để bổ sung cho Bộ xử lý ngôn ngữ của Open AI, công nghệ LP-4. Quả thực, xe tự lái của OpenAI không phải do thu thập thông tin, đây là vấn đề thách thức mà công ty liên hệ; đúng hơn, cái sau phát huy tác dụng trong những điều kiện như vậy.

Mặc dù mức độ phổ biến ban đầu của hành vi thu thập dữ liệu có liên quan đến việc xem xét bản quyền sử dụng hợp pháp, nhưng vấn đề sau này cũng trở thành cơ sở pháp lý cho các hành vi này. Như Brockman đã nói, một trong những thành viên sáng lập và Giám đốc điều hành của OpenAI đã cung cấp một số thông tin cần thiết cho quá trình phiên âm. Tuy nhiên, ông tiếp tục nói rằng nhà sử học cũng đóng góp vào việc ghi chép.

Tuy nhiên, Tập đoàn Google đang chiếm vị trí trung tâm ngay cả đối với những vấn đề nhỏ này đối với các dự án lớn hơn như thế này, tức là chức năng thu thập dữ liệu như OpenAI là một tổ chức nhỏ hơn và tham gia vào các dự án hướng tới gã khổng lồ trong ngành và người dùng chỉ được cảnh báo và không cho biết YouTube sẽ đổ lỗi cho ai.

Bên cạnh cách tiếp cận này, Facebook cũng đề cập đến cơ sở tuân thủ ĐKDV và cấm các hành động trái phép, đặc biệt là cái gọi là thu thập dữ liệu. Trong trường hợp của John Conly (người phát ngôn của YouTube), ông đã trả lời câu hỏi liệu các mô hình có được sử dụng để đào tạo AI dựa trên nội dung hay không sau khi thu thập dữ liệu từ người sáng tạo nội dung.

Ngược lại. Cũng như máy đào tạo, Meta đang là một vấn đề hiện tại dẫn đến tính không khả thi của nó. Nhóm AI trong công ty, đã thành công với sự cạnh tranh của OpenAI, cho rằng cả hai nhóm đã sử dụng mọi phương tiện sẵn có để mang lại kết quả tốt hơn cho công ty của họ, bao gồm cả suy nghĩ ban đầu mà không chú ý đến bất kỳ vấn đề nào có lợi cho bên bị từ chối.

Meta dường như đã chuẩn bị sẵn các loại câu hỏi mà họ nhằm mục đích tìm ra câu trả lời về công việc được ủy quyền sẽ thực hiện, ai sẽ chịu trách nhiệm mua sách từ các nhà xuất bản chuyên về các lĩnh vực cụ thể. Mặc dù trải nghiệm người dùng của mạng cực kỳ tuyệt vời, nhưng chính sách lâu đời của chính phủ đã có sáng kiến ​​can thiệp vào quyền riêng tư cá nhân, điều này được nhấn mạnh bởi vụ Cambridge Analytica vào năm 2018.

Bối cảnh đào tạo AI rộng lớn hơn phải đối mặt với một vấn đề nan giải cấp bách: Một mặt, câu hỏi về tình trạng thiếu dữ liệu đã trở nên gay gắt hơn trong vài năm qua. Mặc dù mối liên hệ giữa hai điều này vẫn còn nhưng các nhà nghiên cứu luôn nhấn mạnh vào việc có đủ dữ liệu để nâng cao độ chính xác và nâng cao hiệu suất.

Ngoài ra, dự đoán của Wall Street Journal đánh thức sự nhiệt tình, dự đoán sẽ vượt mọi mục tiêu cho đến đầu năm 2020 và vượt qua thời điểm cuối năm với điểm thị trường cao nhất. Phương pháp này dựa trên hai yếu tố: dựa vào các mô hình, có thể được tổng hợp thành trạng thái ma trận bên ngoài và chương trình giảng dạy về quy trình ra quyết định, trong đó các mô hình học hỏi từ các quyết định của chúng. Đừng mong đợi chúng tạo ra kết quả mà hãy để chúng có thể được quan sát.

Ý nghĩa pháp lý và đạo đức

Việc thiếu quy định vi phạm bản quyền có thể gây rắc rối vì không có gì có thể cho phép người dùng truy cập vào các mục có bản quyền và sự hiểu biết về sứ mệnh có thể nảy sinh xung quanh luật pháp, đạo đức, v.v. Liệu dữ liệu có trở thành tài sản vô hình và là cơ sở để biết và nêu rõ đâu là của bạn và đâu là gì Không phải vậy, dữ liệu và người dùng nào được biết là nguồn gốc của doanh nghiệp khi việc sử dụng dữ liệu đó là không chính đáng? Rủi ro này sẽ khiến chương trình của nhóm R&D phải tập trung xem xét chúng và tìm ra câu trả lời.

Mối quan hệ trong mục đích của các chiến dịch hành động tập thể sẽ đòi hỏi rằng quyền riêng tư và việc sử dụng dữ liệu là những câu trả lời mà tổ chức không biết đủ để khiến hoạt động của mình trở nên hợp pháp. Thật vậy, những thách thức (chẳng hạn như các vấn đề đạo đức liên quan đến quá trình khai thác dữ liệu được sử dụng cho nghiên cứu và phát triển AI) trở nên phức tạp vì chúng ta phải xem xét các hạn chế về quy định và quyền riêng tư của dữ liệu (vì bản chất của dữ liệu nằm trong bối cảnh). về cách dữ liệu được xử lý và sử dụng).

Cuộc cạnh tranh AI gay gắt nhất trong tương lai nằm ở việc xác định dữ liệu tốt nhất để đào tạo hệ thống AI và thậm chí còn hơn thế nữa là liệu dữ liệu đó có trải qua các khuôn khổ pháp lý hoặc đạo đức chung hay không. Mọi thứ xung quanh AI, về bản chất, đều nhấn mạnh và mở rộng các khái niệm như đổi mới và triển khai thông qua bộ lọc tập dữ liệu cho doanh nghiệp.

Là một trí tuệ nhân tạo công nghệ không bao giờ tĩnh, vì vậy vấn đề chính sẽ luôn là việc sử dụng dữ liệu và nó sẽ tiếp tục là một trong những ưu tiên hàng đầu của các thành viên cộng đồng hình thành thông qua việc sử dụng trí tuệ nhân tạo, điều tốt nhất.

Câu chuyện gốc từ: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb