Unu, ce este etichetarea datelor

Să discutăm mai întâi despre ce este etichetarea datelor. Etichetarea datelor are multe tipuri, cum ar fi clasificarea, desenarea cadrelor, comentariile, etichetele etc., despre care vom discuta mai în detaliu mai jos.

Pentru a înțelege etichetarea datelor, trebuie mai întâi să înțelegem că AI-ul înlocuiește parțial funcțiile cognitive ale oamenilor. Să ne amintim cum am învățat: de exemplu, când învățăm să recunoaștem un măr, trebuie să existe cineva care să ne arate un măr și să ne spună că este un măr. Apoi, când întâlnim un măr, știm că aceasta se numește „măr”.

În analogia cu învățarea automată, trebuie să-l învățăm să recunoască un măr. Dacă îi dai direct o imagine cu un măr, nu va avea idee ce este. Trebuie să avem mai întâi o imagine cu un măr, etichetată cu cuvântul „măr”, iar apoi mașina, învățând dintr-un număr mare de caracteristici din imagini, va putea recunoaște orice imagine cu un măr.

Aici putem menționa și conceptele de set de antrenament și set de testare. Ambele sunt date etichetate; să presupunem că avem 1000 de imagini etichetate „măr”, putem lua 900 ca set de antrenament și 100 ca set de testare. Mașina învață un model din cele 900 de imagini cu mere, iar apoi folosim cele 100 de imagini neîntâlnite de mașină pentru recunoaștere, astfel obținând precizia modelului. Gândiți-vă la școală: conținutul examenelor nu este același cu temele din fiecare zi, și doar așa putem verifica efectul real al învățării, deci nu este greu de înțeles de ce trebuie să împărțim un set de testare.

Știm că învățarea automată se împarte în învățare supravegheată și învățare nesupravegheată. Efectul învățării nesupravegheate este incontrolabil și este adesea folosit pentru experimente exploratorii. În aplicațiile practice, se folosește de obicei învățarea supravegheată, care necesită date etichetate ca experiență anterioară.

Înainte de a efectua etichetarea datelor, trebuie să curățăm datele pentru a obține datele care îndeplinesc cerințele noastre. Curățarea datelor include eliminarea datelor invalide, organizarea într-un format ordonat etc. Cerințele specifice ale datelor pot fi confirmate cu persoanele care se ocupă cu algoritmii.

Două, câteva tipuri comune de etichetare a datelor

1. Etichetare prin clasificare: Etichetarea prin clasificare este ceea ce întâlnim de obicei. Se alege eticheta corespunzătoare dintr-un set prestabilit de etichete, fiind un set închis. După cum se arată în imagine, o imagine poate avea multe clasificări/etichete: adult, femeie, rasă asiatică, păr lung etc. Pentru text, putem eticheta subiectul, predicatul, complementul, substantivele, verbele etc.

Aplicabil: text, imagini, voce, video

Aplicații: recunoașterea vârstei feței, recunoașterea emoțiilor, recunoașterea genului

2. Etichetare prin cadru: etichetarea prin cadru în viziunea artificială este ușor de înțeles; este vorba despre conturarea obiectului care trebuie detectat. De exemplu, pentru recunoașterea feței, trebuie mai întâi să stabilim poziția feței. Recunoașterea pietonilor, așa cum se arată în imagine.

Aplicabil: imagini

Aplicații: recunoașterea feței, recunoașterea obiectelor

3. Etichetare pe zone: spre deosebire de etichetarea prin cadru, etichetarea pe zone necesită o precizie mai mare. Marginile pot fi flexibile. De exemplu, recunoașterea drumurilor în conducerea autonomă.

Aplicabil: imagini

Aplicații: conducere autonomă

4. Etichetare prin punctare: în aplicațiile care necesită cerințe detaliate de caracteristici, etichetarea prin punctare este adesea necesară. Recunoașterea feței, recunoașterea scheletului etc.

Aplicabil: imagini

Aplicații: recunoașterea feței, recunoașterea scheletului

5. Alte etichetări: tipurile de etichetare, pe lângă cele menționate anterior, sunt foarte personalizate. În funcție de diferitele cerințe, sunt necesare diferite etichetări. De exemplu, pentru sumarizarea automată, trebuie să etichetezi punctele principale ale articolului; acest tip de etichetare nu se încadrează strict în nici una dintre cele menționate anterior. (sau poți să-l incluzi în clasificare, dar etichetarea punctelor principale nu are un standard atât de obiectiv; dacă este vorba de etichetarea merelor, majoritatea oamenilor vor avea rezultate asemănătoare.)

Trei, procesul de etichetare a datelor

1. Stabilirea standardelor de etichetare

Stabilirea standardelor este un pas cheie pentru a garanta calitatea datelor; trebuie să existe un standard de referință. De obicei, se poate:

Stabilirea exemplelor și șabloanelor de etichetare. De exemplu, standardul pentru culori este o scară de culori. Pentru datele ambigue, se stabilește o modalitate uniformă de procesare, cum ar fi abandonarea sau etichetarea uniformă.

Standardele de referință trebuie uneori să țină cont de industrie. De exemplu, în analiza sentimentelor textuale, termenul „cicatrice” poate fi un cuvânt negativ în psihologie, în timp ce în medicină este un cuvânt neutru.

2. Stabilirea formei de etichetare

Forma de etichetare este de obicei stabilită de persoanele care se ocupă cu algoritmii; de exemplu, pentru unele etichetări de text, cum ar fi recunoașterea întrebărilor, este suficient să etichetezi propoziția cu 0 sau 1. Dacă este o întrebare, etichetezi cu 1, dacă nu, etichetezi cu 0.

3. Alegerea instrumentului de etichetare

După ce forma de etichetare este stabilită, urmează alegerea instrumentului de etichetare. De obicei, este oferit de persoanele care se ocupă cu algoritmii. Companiile mari pot dezvolta intern un instrument vizual specializat pentru etichetarea datelor. De exemplu:

Există și instrumente de etichetare a datelor open-source, cum ar fi micuțul instrument labelImg recomandat pe Github.

Patru, designul produsului de etichetare a datelor

Combinând experiența mea în crearea unui instrument de etichetare a datelor, să discutăm câteva sfaturi de design pentru instrumentele de etichetare a datelor.

Un instrument de etichetare a datelor conține în general:

Bară de progres: utilizată pentru a indica progresul etichetării datelor. Etichetatorii au de obicei cerințe de volum de sarcină, facilitându-le vizualizarea progresului și statisticile. Subiectul etichetării: acesta poate fi proiectat în funcție de forma de etichetare, iar în principiu, cu cât este mai simplu și mai ușor de utilizat, cu atât mai bine. În funcție de atenția necesară pentru etichetare, se poate împărți în etichete unice și etichete multiple, alegând în funcție de nevoie. Funcția de import și export de date: dacă instrumentul tău de etichetare este conectat direct la model, nu este necesar. Funcția de salvare: aceasta ar putea fi ceva la care cei care nu au avut contact cu etichetarea datelor nu s-ar gândi. O situație frecventă pentru etichetatori este oboseala sau întâlnirea cu date ambigue, așa că pot salva pentru a eticheta ulterior. Mecanismul de control al calității: când se distribuie datele, se pot distribui aleatoriu unele date deja etichetate, pentru a verifica fiabilitatea etichetatorilor.