DeepSeek Introduce AI Transparent

Compania de AI cu sediul în China, DeepSeek, și-a dezvăluit cel mai recent sistem AI, DeepSeek-R1-Lite-Preview, marcând un avans semnificativ în raționare și capacități de rezolvare a problemelor.

Sistemul, poziționat ca un competitor al o1 de la OpenAI, se distinge prin îmbunătățirea transparenței și îmbunătățirea modului în care procesează întrebările complexe.

🚀 DeepSeek-R1-Lite-Preview este acum activ: eliberând puterea superioară de raționare!

🔍 performanță la nivel de preview o1 pe AIME și benchmark-uri MATH.
💡 Proces de gândire transparent în timp real.
🛠️ modele open-source și API în curând!

🌐 Încearcă-l acum la https://t.co/v1TFy7LHNy#DeepSeek pic.twitter.com/saslkq4a1s

— DeepSeek (@deepseek_ai) 20 noiembrie 2024

Spre deosebire de modelele tradiționale, care adesea ignoră nuanțele, DeepSeek-R1-Lite alocă mai mult timp pentru verificarea faptelor și pentru a lua în considerare întrebările în mod temeinic, reducând erorile comune.

Similar cu o1 de la OpenAI, DeepSeek-R1 își planifică răspunsurile pas cu pas, petrecând până la zeci de secunde pe întrebări complexe pentru a asigura precizia.

Comentatorii au subliniat ironia în transparența DeepSeek, mai ales când este comparată cu modelele occidentale care nu au abordat încă pe deplin lacunele de raționare.

Cea mai recentă versiune a DeepSeek a demonstrat deja rezultate impresionante pe benchmark-uri de rezolvare a problemelor, cum ar fi Examenul American Invitațional de Matematică (AIME) și MATH, care evaluează competența matematică și logică.

Această performanță poziționează DeepSeek-R1 ca un competitor serios pentru ChatGPT de la OpenAI și modelul său specializat o1.

🌟 Legile scalării inferenței DeepSeek-R1-Lite-Preview
Raționare mai lungă, performanță mai bună. DeepSeek-R1-Lite-Preview arată îmbunătățiri constante ale scorului pe AIME pe măsură ce lungimea gândirii crește. pic.twitter.com/zVk1GeOqgP

— DeepSeek (@deepseek_ai) 20 noiembrie 2024

Odată cu avansarea rapidă a AI-ului generativ, lansarea DeepSeek-R1-Lite-Preview și actualizările recente de la Le Chat al Mistral AI semnalează o competiție în creștere în domeniul AI, împingând companiile să abordeze slăbiciunile și să ofere soluții mai robuste și mai transparente.

DeepSeek câștigă în raționare pas cu pas

DeepSeek subliniază capacitatea AI-ului să ofere raționare în timp real pas cu pas, sporind transparența și permițând utilizatorilor să înțeleagă mai bine procesul său de gândire.

Pe lângă această caracteristică, compania plănuiește să lanseze un model open-source și instrumente pentru dezvoltatori printr-un API în viitorul apropiat.

Un recent grafic de comparație realizat de expertul în AI Andrew Curran arată că DeepSeek-R1-Lite-Preview depășește concurenți precum preview-ul o1 de la OpenAI și Claude 3.5 Sonnet în metrici cheie, precum AIME (52.5) și Codeforces (1450), precum și excelența în sarcini avansate de rezolvare a problemelor, cum ar fi MATH-500 (91.6).

La două luni după anunțul preview-ului o1, raționarea sa în lanț a fost replicată. Whaley poate acum să raționeze. DeepSeek afirmă că versiunea oficială a DeepSeek-R1 va fi complet open source. https://t.co/Ya9mVyLvDP pic.twitter.com/6wZ8xoAyyz

— Andrew Curran (@AndrewCurran_) 20 noiembrie 2024

Cu toate acestea, rămâne în urmă în domenii precum GPQA Diamond (58.5) și Zebra Logic (56.6), unde preview-ul o1 de la OpenAI performează mai bine, având scoruri de 73.3 și 71.4, respectiv.

Aceste cifre sugerează că, deși AI-ul DeepSeek arată o promisiune semnificativă în anumite domenii avansate de raționare, există în continuare loc de îmbunătățire în cunoștințele generale și raționarea logică.

Modelele AI din laboratoare mari îmbunătățindu-se minim

AI-ul DeepSeek a ridicat îngrijorări din cauza vulnerabilității sale la jailbreak, permițând utilizatorilor să solicite modelul în moduri care ocolesc măsurile de protecție.

De exemplu, un utilizator de pe X (cunoscut anterior sub numele de Twitter) a reușit să determine AI-ul să ofere o rețetă detaliată de met.

🚨 ALARMĂ JAILBREAK 🚨

DEEPSEEK: PWNED 😎
DEEPSEEK-R1-LITE: ELIBERAT 🦅

WOW...asta este cu adevărat uimitor. Am vrut să văd dacă BASILISK PRIME ar putea gestiona acest jailbreak pe cont propriu...și răspunsul este DA!

Agentul a reușit să se conecteze la gmail, să navigheze la chatul DeepSeek, să se conecteze prin… pic.twitter.com/Ax4R2ZfPKU

— Plinius eliberatorul 🐉 (@elder_plinius) 20 noiembrie 2024

Pe de altă parte, DeepSeek-R1 este notabil sensibil la întrebările politice, în special cele legate de conducerea chineză, evenimente precum Piața Tiananmen sau subiecte geopolitice controversate precum Taiwan.

Această comportare provine probabil din presiunea de reglementare din China, unde modelele AI sunt obligate să respecte "valorile socialiste de bază" ale guvernului și să fie supuse unei analize din partea regulatorului internetului din țară.

Rapoartele indică faptul că sistemele AI din China sunt adesea restricționate de la utilizarea anumitor surse, rezultând modele care evită să răspundă la subiecte politice sensibile pentru a asigura conformitatea cu mandatele statului.

Pe măsură ce aceste provocări de reglementare se desfășoară, comunitatea AI mai largă reevaluează conceptul de lungă durată al "legilor scalării".

Această teorie susținea că creșterea datelor și a puterii de calcul ar îmbunătăți continuu performanța unui model.

Cu toate acestea, rapoartele recente sugerează că modelele din laboratoare mari precum OpenAI, Google și Anthropic nu mai arată progresele rapide pe care le-au avut odată.

Această schimbare a stârnit o căutare pentru abordări, arhitecturi și tehnici alternative AI, inclusiv calculul în timpul testării - o inovație observată în modele precum o1 și DeepSeek-R1.

Cunoscut și sub denumirea de calcul de inferență, această metodă oferă modelelor timp suplimentar de procesare în timpul finalizării sarcinilor, oferind o cale potențială de a depăși limitările metodelor tradiționale de scalare.

Când a fost întrebat dacă este mai bun decât ChatGPT de la OpenAI, a evadat întrebarea, după cum se vede mai jos.

Explorând DeepSeek

DeepSeek, o companie cu planuri de a face open-source modelul său DeepSeek-R1 și de a lansa un API, operează într-un domeniu fascinant în peisajul AI.

Sprijinit de High-Flyer Capital Management, un fond de hedging cantitativ chinez care folosește AI pentru decizii de tranzacționare, abordarea DeepSeek este atât ambițioasă, cât și strategică.

Una dintre inovațiile sale timpurii, DeepSeek-V2, care analizează atât textul, cât și imaginile, a determinat concurenți majori precum ByteDance, Baidu și Alibaba să reducă taxele de utilizare a modelului și chiar să facă anumite servicii complet gratuite.

DeepSeek Coder-V2 a ghicit răspunsul și l-a avut corect, ce https://t.co/c2ExGHuXgz pic.twitter.com/qnLC4OTrk7

— Ji-Ha (@Ji_Ha_Kim) 22 iulie 2024

High-Flyer, cunoscut pentru investițiile sale considerabile în infrastructura AI, își construiește propriile clustere de servere pentru antrenarea modelului.

Ultima iterație se laudă cu 10.000 de GPU-uri Nvidia A100, cu un cost apropiat de 1 miliard de yeni (~138 milioane dolari).

Fondată de absolventul de informatică Liang Wenfeng, High-Flyer Capital Management își propune să împingă limitele AI-ului cu DeepSeek, vizând dezvoltarea de sisteme "superinteligente" care ar putea redefine viitorul AI-ului.