Modelele de limbaj mari (LLM) instruite pe iterațiile anterioare ale materialelor generate de IA produc rezultate lipsite de substanță și nuanță, a descoperit un nou studiu. Descoperirile prezintă o nouă provocare pentru dezvoltatorii AI, care se bazează pe seturi limitate de date generate de oameni pentru conținut.

Citește și: Deepfake-urile AI îngreunează autoritățile americane să protejeze copiii – raport

Cercetătorii în inteligență artificială de la Universitatea Cambridge și Universitatea Oxford din Regatul Unit au încercat să scrie prompturi bazându-se pe un set de date care cuprinde numai conținut generat de AI. Rezultatul nu a fost ideal, deoarece a produs răspunsuri de neînțeles.

AI încă are nevoie de oameni pentru a avea sens

Unul dintre autorii lucrării, Zhakar Shumaylov de la Universitatea din Cambridge, a spus că este nevoie de un control al calității în datele care alimentează LLM-urile, tehnologia din spatele chatbot-urilor AI generative precum ChatGPT și Google Gemini. Shumaylov a spus:

„Mesajul este că trebuie să fim foarte atenți la ceea ce ajunge în datele noastre de antrenament. [În caz contrar,] lucrurile vor merge întotdeauna prost, probabil,”.

Fenomenul este cunoscut sub numele de „colapsul modelului”, a detaliat Shumaylov. S-a dovedit că afectează toate tipurile de modele de inteligență artificială, inclusiv pe cele specializate în generarea de imagini folosind mesaje text.

Potrivit studiului, repetarea solicitărilor de text folosind date generate de AI pe un model a sfârșit prin a genera farfurie. De exemplu, cercetătorii au descoperit că un sistem testat cu text despre turnurile bisericii medievale din Marea Britanie a produs o listă repetitivă de iepuri după doar nouă generații.

Comentând rezultatele, informaticianul de la Universitatea din California, Hany Farid, a comparat colapsul datelor cu provocările endemice ale înmulțirii animalelor.

„Dacă o specie se consangvinizează cu propria descendentă și nu își diversifică fondul genetic, poate duce la colapsul speciei”, a spus Farid.

Când cercetătorii au infuzat date generate de oameni în datele AI, colapsul s-a produs mai lent decât atunci când rula pe conținut pur generat de AI.

Modelele de inteligență artificială produc farfurie atunci când sunt instruite pe date generate de inteligență artificială. Cercetători: AI ar putea agrava prejudecățile împotriva grupurilor minoritare

Modelele lingvistice funcționează prin construirea de asocieri între simboluri - cuvinte sau părți de cuvinte - în părți uriașe de text, adesea răzuite de pe Internet. Ei generează text prin scuipat următorul cuvânt cel mai probabil din punct de vedere statistic, pe baza acestor modele învățate.

Citește și: Ursulețul de pluș alimentat de ChatGPT, Poe le citește copiilor povești înainte de culcare

Studiul, care a fost publicat în revista Nature pe 24 iulie, a arătat că este posibil ca informațiile menționate de câteva ori în seturile de date să nu se repete. Cercetătorii se tem că acest lucru ar putea avea un impact negativ asupra grupurilor minoritare deja marginalizate.

Pentru a preveni prăbușirea modelului în cazurile de utilizare din viața reală, studiul a sugerat filigranarea conținutului generat de AI și a conținutului generat de oameni. Dar acest lucru ar putea fi, de asemenea, problematic din cauza lipsei de coordonare între companiile rivale de AI, se spune.

Descoperirile studiului vin într-un moment în care există o dezbatere sporită cu privire la dacă AI va duce la excluderea totală a oamenilor în crearea de conținut, inclusiv scrierea de romane și articole de ziare.

Intitulat „Modelele AI se prăbușesc atunci când sunt antrenate pe date generate recursiv”, rezultatele studiului au oprit această dezbatere – oamenii nu sunt încă îndepărtați din ecuație.