Saat membahas perdebatan baru-baru ini tentang bagaimana Open dan Google menyesuaikan datanya sebagai model, Anda akan melihat bahwa ada dua istilah yang lebih mendominasi perdebatan: terbuka dan Google. Artikel-artikel yang diterbitkan di The Wall Street Journal dan NY Times baru-baru ini menggambarkan bahwa cara perusahaan terkait AI mengumpulkan data tidak tepat sasaran dan membuat pusing kepala mengenai data mana yang benar dan sudut etika mana yang digunakan dalam menciptakan sistem terkait AI. .

Taktik OpenAI yang dipertanyakan

Namun, pada puncaknya, New York Times menekankan hasil yang lebih besar dari Open AI yang disajikan dengan Whisper. Model transkripsi audio-ke-teks ini dikembangkan sebagai pelengkap Pemroses Bahasa Open AI, teknologi LP-4. Memang benar, mobil self-driving OpenAI tidak lepas dari pengumpulan informasi, yang merupakan masalah menantang yang dihadapi perusahaan; sebaliknya, yang terakhir ikut berperan dalam kondisi seperti itu.

Meskipun popularitas awal tindakan pengumpulan data ini terkait dengan pertimbangan hak cipta penggunaan wajar, pertimbangan hak cipta juga menjadi dasar hukum bagi tindakan tersebut. Seperti yang dikatakan Brockman, salah satu anggota pendiri dan CEO OpenAI memberikan beberapa informasi yang diperlukan untuk transkripsi. Namun, dia melanjutkan dengan mengatakan bahwa sejarawan juga berkontribusi dalam transkripsi tersebut.

Namun, Google Corporation menjadi pusat perhatian bahkan untuk masalah kecil hingga usaha besar seperti ini, yaitu, fungsi pengumpulan data seperti OpenAI adalah organisasi yang lebih kecil dan terlibat dalam proyek yang ditujukan untuk raksasa industri, dan pengguna hanya diperingatkan dan tidak diberitahu siapa yang harus disalahkan oleh YouTube.

Selain pendekatan ini, Facebook juga mencakup dasar kepatuhan terhadap TOS dan melarang tindakan tidak sah, terutama yang disebut pengikisan data. Dalam kasus John Conly (juru bicara YouTube), dia menjawab pertanyaan apakah model tersebut digunakan untuk pelatihan AI berbasis konten setelah mengumpulkan data dari pembuat konten.

Di sisi lain. Serta mesin pelatihan di sisi mana Meta merupakan masalah saat ini yang menyebabkan ketidaklayakannya. Kelompok AI di perusahaan yang sukses dengan persaingan OpenAI menilai kedua tim menggunakan segala cara untuk mengupayakan hasil yang lebih baik bagi perusahaannya, termasuk pemikiran orisinal tanpa memperhatikan hal apa pun yang menguntungkan pihak yang ditolak.

Meta tampaknya telah menyiapkan jenis pertanyaan yang bertujuan untuk mendapatkan jawaban tentang pekerjaan apa yang akan dilakukan, siapa yang akan bertanggung jawab untuk membeli buku dari penerbit mana yang berspesialisasi dalam bidang tertentu. Meskipun pengalaman pengguna jaringan ini sangat luar biasa, kebijakan pemerintah yang mapan telah mengambil inisiatif untuk mencampuri privasi individu, hal yang disoroti pada tahun 2018 oleh kasus Cambridge Analytica.

Lanskap pelatihan AI yang lebih luas menghadapi dilema yang mendesak: Di satu sisi, pertanyaan tentang kekurangan data menjadi semakin akut dalam beberapa tahun terakhir. Meskipun hubungan antara keduanya tetap ada, para peneliti selalu bersikeras untuk memiliki data yang memadai untuk meningkatkan akurasi dan peningkatan kinerja.

Selain itu, prediksi Wall Street Journal juga membangkitkan antusiasme, yang memproyeksikan peningkatan melampaui seluruh target pada tahun awal 2020 dan melintasi akhir tahun dengan titik pasar tertinggi. Metode ini didasarkan pada dua faktor: mengandalkan model, yang dapat disintesis untuk menyatakan matriks eksternal, dan kurikulum proses pengambilan keputusan, tempat model belajar dari keputusannya. Jangan mengharapkan hal tersebut membuahkan hasil, namun biarkan hal tersebut dapat diamati.

Implikasi hukum dan etika

Tidak adanya aturan pembajakan mungkin menimbulkan masalah karena tidak ada yang mengizinkan pengguna mengakses item yang dilindungi hak cipta, dan pemahaman misi mungkin muncul seputar hukum, etika, dll. Apakah data menjadi properti tidak berwujud dan dasar untuk mengetahui dan menyatakan apa yang menjadi milik Anda dan apa? bukan, data dan pengguna manakah yang diketahui menjadi sumber bisnis ketika penggunaan data tersebut tidak beralasan? Risiko ini akan membuat tim penelitian dan pengembangan memusatkan perhatian pada peninjauan program tersebut dan mencari jawabannya.

Hubungan dalam tujuan kampanye gugatan kelompok akan berarti bahwa privasi dan penggunaan data adalah jawaban yang tidak cukup diketahui oleh organisasi untuk menjadikan operasinya sah. Memang benar, tantangannya (seperti masalah etika mengenai proses penambangan data yang digunakan untuk penelitian dan pengembangan AI) menjadi rumit karena kita harus mempertimbangkan batasan peraturan dan privasi data (karena sifat data berada dalam konteksnya). tentang bagaimana data diproses dan digunakan).

Persaingan AI yang paling ketat di masa depan terletak pada identifikasi data terbaik untuk pelatihan sistem AI, dan terlebih lagi, apakah data tersebut akan tunduk pada kerangka peraturan etis atau hukum yang sama. Segala sesuatu di sekitar AI, pada dasarnya, menekankan dan memperluas konsep seperti inovasi dan implementasi melalui filter kumpulan data untuk perusahaan.

Menjadi Teknologi Kecerdasan Buatan Tidak Pernah Statis, Jadi Masalah Utama Akan Selalu Pada Penggunaan Data, Dan Akan Terus Menjadi Salah Satu Prioritas Anggota Komunitas Yang Terwujud Melalui Penggunaan Kecerdasan Buatan, Yang Terbaik.

Cerita asli dari: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb