Meningkatkan Kualitas Data Melalui Deteksi Kesalahan Kolektif dan Penyelesaian Masalah Kreatif

Data yang tidak akurat, duplikat, dan tidak lengkap terus menjadi masalah di berbagai industri. Kecerdasan buatan dimanfaatkan untuk mengurangi masalah ini, tetapi memiliki batasan yang melekat. Dataset AI dapat mengandung data yang salah label atau tidak relevan.
Fraction AI mempelopori pendekatan baru untuk pelabelan data dengan menggabungkan efisiensi agen AI dengan wawasan manusia. Perusahaan baru saja menyelesaikan putaran pendanaan pra-persemaian senilai $6 juta yang dipimpin bersama oleh Symbolic dan Spartan, di samping investasi strategis dari Illia Polosukhin (Near), Sandeep Nailwal (Polygon), dan investor malaikat unggulan lainnya.
Fraction AI menghadapi tantangan yang semakin meningkat dalam menghasilkan data berkualitas tinggi. Metode tradisional hanya bergantung pada AI atau manusia. Fraction AI bertujuan untuk menggunakan pemahaman manusia sebagai panduan bagi agen AI. Dana dari putaran ini akan digunakan untuk eksplorasi mendalam dan peningkatan infrastruktur untuk menskalakan pendekatan hibrida mutakhir, yang efektivitasnya telah dikonfirmasi oleh penelitian.
Memperkenalkan Pemicu Adversarial yang Digamifikasi
Ilmuwan data telah menunjukkan bahwa dataset yang dibuat menggunakan GAP, atau penggugatan adversarial yang digamifikasi, meningkatkan kinerja model AI terbaru. Kerangka kerja GAP melibatkan crowdsourcing data berkualitas tinggi untuk menyempurnakan model multimodal besar, mengubah pengumpulan data menjadi permainan yang menarik. Ini mendorong pemain untuk memberikan pertanyaan dan jawaban yang kompleks dan mendetail yang mengisi kekurangan dalam pengetahuan model.
Dalam istilah sederhana, Fraction AI memberikan insentif kepada agen AI untuk menciptakan data berkualitas tinggi melalui kompetisi waktu nyata. Pengembang mengatur dan meluncurkan agen menggunakan instruksi rinci untuk memandu tindakan mereka dan mencapai hasil terbaik, sementara ether dipertaruhkan sebagai dasar ekonomi. Peserta mendapatkan insentif ekonomi dalam apa yang memfasilitasi aliran data pelatihan berharga yang berkelanjutan.
Masalah saat ini dengan kualitas data
Data yang tidak akurat menghabiskan biaya organisasi puluhan juta dolar setiap tahun. Contoh sepele termasuk nama pelanggan yang salah eja, alamat pelanggan dengan kesalahan, dan entri data yang salah secara umum. Apa pun penyebabnya, data yang tidak akurat tidak dapat digunakan karena menyebabkan deviasi dalam setiap analisis data.
Ketika data diimpor dari beberapa sumber, tidak jarang berakhir dengan set duplikat. Menggunakan ritel sebagai contoh lagi, Anda mungkin mengimpor daftar pelanggan dari dua sumber dan menemukan beberapa orang yang membeli barang dari kedua pengecer. Catatan duplikat menjadi masalah karena Anda hanya ingin menghitung setiap pelanggan sekali.
Ketika data digabungkan dari dua sistem yang berbeda, format yang tidak konsisten dapat muncul. Ketidakkonsistenan antar sistem dapat menyebabkan masalah kualitas data besar jika tidak diidentifikasi dan diperbaiki dengan cepat.
Data yang tidak lengkap dan data gelap adalah dua masalah tambahan. Beberapa catatan kehilangan informasi kunci, seperti nomor telepon tanpa kode area atau rincian demografis tanpa usia yang dimasukkan. Data gelap atau tersembunyi adalah data yang dikumpulkan dan disimpan tetapi tidak digunakan secara aktif. IBM memperkirakan bahwa 90% dari semua data sensor yang dikumpulkan dari perangkat IoT tetap tidak digunakan. Banyak organisasi bahkan tidak menyadari sumber daya yang terbuang ini, yang menyumbang lebih dari 50% dari biaya penyimpanan data rata-rata organisasi.
Pemahaman manusia memfasilitasi perbaikan
Sebagai alat pendidikan, GAP memotivasi manusia untuk menantang batasan model AI, yang mengarah pada perbaikan kinerja yang signifikan. Ini mendorong deteksi kesalahan dengan menugaskan pemain untuk mengidentifikasi ketidakakuratan atau inkonsistensi dalam dataset atau output AI. Latar belakang mereka yang beragam dapat membawa perspektif yang bervariasi, sehingga lebih mudah untuk menemukan bias yang mungkin terlewatkan oleh satu tim pengembangan.
Gamifikasi mendorong pemikiran inovatif melalui tantangan atau teka-teki yang dirancang untuk memperluas batasan dataset atau model. Pemain dapat menemukan kasus penggunaan baru, mendeteksi output atau input yang bias, dan mengusulkan alternatif yang lebih inklusif. Ini mengurangi bias sistemik dalam data dan model, menciptakan dasar yang lebih adil untuk semua jenis aplikasi. Selain itu, peserta akan menandai anomali data yang sebelumnya tidak terdeteksi karena mereka akan mendapatkan imbalan untuk menemukan cacat. Imbalan untuk mengidentifikasi cacat signifikan bisa jadi lebih tinggi, mengurangi risiko kegagalan atau kerentanan yang tidak terduga dalam aplikasi dunia nyata.
Saat teknologi berkembang, semakin banyak orang dapat bermain game secara bersamaan, memungkinkan perbaikan eksponensial saat volume input yang besar mempercepat identifikasi kelemahan.
Sisi gelap dari kreativitas
Penyelesaian masalah kreatif tidak harus untuk kebaikan publik. Imbalan akan menjadi motivasi utama bagi beberapa pengguna, yang mengarah pada fokus berlebihan pada mereka. Mengambil ini lebih jauh, tidaklah tidak masuk akal untuk mengharapkan aktor jahat mencoba untuk mengeksploitasi sistem, dan platform perlu menerapkan mekanisme untuk mendeteksi dan memblokir aktivitas berbahaya. Contoh adalah menggunakan AI dan model statistik untuk memantau pola perilaku pengguna, menandai anomali yang menunjukkan spam atau pola pengajuan yang tidak biasa. Tingkat pengajuan yang tidak biasa tinggi atau pola berulang dari satu pengguna dapat ditandai untuk ditinjau.
Kerangka kerja GAP dapat memberikan skor reputasi kepada peserta berdasarkan riwayat kontribusi mereka. Idealnya, pengguna baru akan memiliki pengaruh terbatas sampai mereka membangun kredibilitas untuk mengurangi risiko eksploitasi awal.
Akhirnya, akan ada pengguna yang menandai masalah secara acak. Platform yang memanfaatkan GAP perlu melibatkan ahli manusia atau AI untuk mencegah peserta menandai data yang akurat dan berharga.
Mengambil kualitas data menjadi arus utama
Risiko terlepas, manusia akan didorong untuk menemukan data yang salah label atau tidak relevan dalam dataset AI, meningkatkan kualitas pembelajaran mesin dan model AI. Di luar AI, kontribusi yang digamifikasi dapat meningkatkan akurasi dan kelengkapan dataset yang dapat diakses secara gratis oleh publik seperti Wikipedia atau OpenStreetMap. Menandai informasi yang salah secara real-time akan menghasilkan repositori yang lebih dapat diandalkan.
GAP juga akan berdampak pada konten yang berbahaya, bias, atau tidak pantas. Platform seperti Reddit atau YouTube dapat mengadopsinya untuk mengidentifikasi dan menghapus konten semacam itu lebih cepat.
 
Pernyataan: Artikel ini disediakan hanya untuk tujuan informasi. Ini tidak ditawarkan atau dimaksudkan untuk digunakan sebagai saran hukum, pajak, investasi, keuangan, atau saran lainnya.
 
Meningkatkan Kualitas Data Melalui Deteksi Kesalahan Kolektif dan Penyelesaian Masalah Kreatif

Jelajahi Konten Lainnya dari Kreator

Berita Terbaru