OpenAI, Google ve Meta'nın, endüstri sektörünü finanse eden AI'nın, muazzam miktarda dijital veriyi farklı yaratıcı ancak tartışmalı yollarla toplamak veya biriktirmek gibi çeşitli araçları içeren çalışmaları olsun, otomasyon yeteneklerinin ve yeteneklerinin arttığı açıktır. Yukarıda özetlenen önlemlerin alınması (yani yasal sınırların ve kurumsal politikaların dikkate alınması) gibi eylemleri içeren çabalar, özellikle yapay zeka sistemlerini eğitmek için kullanılan önemli miktarda veriye eşdeğerdir.

OpenAI'nin fısıltı girişimi: YouTube konuşmalarının madenciliği

Whisper hikayemiz daha geçen yıl başladı. Eğitim sunumunda gecikmelere neden olan birinci sınıf İngilizce metinlerde çok büyük bir eksiklik var. Whisper, Google'ın bir sonraki adımıydı. YouTube'un diyalog okyanusunu anladı ve bir metinden konuşmaya uygulaması olan metin olarak geliştirildi. Yeni metinler (esasen yeni bir konuşma) oluşturmak için yapay zeka tarafından denetlenen bir milyon saatten fazla YouTube videosundan oluşan yapay zeka destekli aracın kendisi, en son teknolojiyle üretilen yapay zeka modellerini eğitmek için kullanıldı. ChatGPT sohbet robotunun en son sürümü olan GPT-4'e kadar.

Her ne kadar bazı çalışanlar OpenAI'nin Microsoft görüntülerinin YouTube'dan genel olarak intihal yapacağını iddia etse de intihal etiği hâlâ tartışmalıydı; Ayrıca bazı çalışanlar, YouTube'un amaçlarına tam olarak uyum sağlamanın imkansız olacağını itiraf etti. Benzer şekilde, yapay zekayı beslemek için metin içeriklerinin çıkarılması amacıyla videoların algoritmik olarak işlenmesinde itirazın kazanılması. modeller, video yaratıcılarının telif haklarına yönelik bir tehdit olarak değerlendirilerek öfkeye neden olabilir. 

Facebook ve Instagram'ın ana şirketi olan Meta, diğerlerinin yanı sıra Simon & Schuster gibi yayınevlerinin telif hakkıyla korunan öğelerini kullanma konusunda da endişeliydi. Aynı zamanda, potansiyel olarak telif hakkı ihlaline yakalanma riski taşıyan genel web içeriğinin edinilmesi de tartışıldı.

Veri krizi: Alışılmadık yaklaşımların desteklenmesi

Rekabetle dolu veri toplama, yapay zeka teknolojisinin geliştirilmesinde verilerin önemli konumunun fark edilmesine ve belirlenmesine yardımcı olur. Yapay zekaya yönelik dil, bugün bu kaynakların dışından Wikipedia ve Reddit'e kadar manipüle edilen İngiliz Milletler Topluluğu da dahil olmak üzere giderek daha fazla eğitim veri kümesine komut veriyor. Özellikle geleneksel veri depoları gibi çok yaygın veri kaynaklarına ulaşmakta zorluk çeken teknoloji şirketleri için yapay zeka destekli modeller oluşturmak, bu gibi durumlarda yeterince istenebilecek alternatif bir çözüm olabilir.

Teknoloji alanında faaliyet gösteren şirketler, yapay zeka eğitimi için veri toplamanın gerekli olduğunu belirtirken, aynı süreç hukuki olarak mahkemede de söz konusu. Savunmalarında OpenAI ve Microsoft, telif hakkıyla korunan materyallerin kendilerine karşı yasa dışı kullanıldığı yönündeki iddiayı kazandı. Yine de eylemlerinin adil kullanım yasal ilkesi kapsamına girdiğini söylediler. Son yıllarda telif hakkı sahipleri tarafından ABD Telif Hakkı Bürosu'na yapılan başvuruların sayısı 10.000'i aştı; bu da yapay zeka çağındaki telif hakkı yasasının benzersiz ve yepyeni olduğunu açıkça gösteriyor. Sonuç olarak, yapay zekayı bu temelde kullanan modellerin lisanslı amaçları olmadığı bahanesiyle ana oyuncular her zaman birçok eserin ihlaliyle ilgili tehlikelerle karşı karşıya kalıyor.

Devasa veri kümelerinin zorunluluğu

Genel olarak, Kaipan'ın, ölçekteki bilim adamı de Jared'in çalışması, yapay zeka geliştirmede istemeden destansı oldu. Veriye dayalı içerik, yapay zekanın eğitim süreci için gerekli bileşenlerinden biridir ancak iyi eğitilmiş ve etkili bir şekilde çalışan modeller olmadan iyi bir şekilde çalışamaz. Yapay zeka teknolojisinin artmasıyla birlikte piyasada başarılı olmak için verilere olan talep de yüksek oranda artıyor ve şirketleri hukuk, etik ve gizlilikle ilgili sorularla baş başa bırakıyor. Bu nedenle yapay zeka algoritmalarının piyasada başarılı olabilmesi için bu veri setlerini kullanması gerekiyor.

V.IP'lerin veri toplama davranışı yapay zeka geliştirmeleri nedeniyle değiştiriliyor; tipik metodolojik yemin kabalaştırılıyor. İster YouTube konuşmalarından biriyle ister sentetik veri oluşturucunun yaratılmasıyla olsun, bu şirketler hukukun, ahlakın ve gizlilik sorunlarının gerçekte ne olduğunu keşfetme misyonuna sahip liderlerdir. 

Daha sonra denizde şaka konusu olabilirler. İnovasyon sürecini yönlendirmek için gereken devasa veri kümelerinin ortaya çıkması nedeniyle, toplum liderlerinin, inovasyon çabalarının fikri mülkiyet hakları ve mahremiyete ilişkin etik ilkelerle dengelendiği kural ve standartları geliştirmek için yapıcı bir diyaloğa aktif olarak katılmaları gerekmektedir.

Orijinal hikaye: https://www.nytimes.com/2024/04/06/teknoloji/tech-giants-harvest-data-artificial-intelligence.html