W końcu miałem okazję odkryć DeepSeek r1
Pozwólcie, że wyjaśnię w prostych słowach, dlaczego innowacje w zakresie sztucznej inteligencji DeepSeek zdumiewają ludzi (i prawdopodobnie zagrażają kapitalizacji rynkowej Nvidii wynoszącej 2 biliony dolarów).
1/ Najpierw trochę kontekstu: Obecnie szkolenie najlepszych modeli AI jest niezwykle kosztowne. OpenAI, Anthropic itp. na same obliczenia wydał ponad 100 milionów dolarów. Potrzebują ogromnych centrów danych z tysiącami procesorów graficznych o wartości 40 000 dolarów. To tak, jakby do obsługi fabryki potrzebna była cała elektrownia.
2/ Pojawił się DeepSeek i powiedział: „LOL, a co by było, gdybyśmy zrobili to za 5 milionów dolarów?” I oni nie tylko rozmawiali, oni to ZROBILI. Ich modele dorównują lub przewyższają GPT-4 i Claude w wielu zadaniach. Świat AI jest (jak mówią moje nastolatki) wstrząśnięty.
3/ Jak? Przemyślili wszystko od góry do dołu. Tradycyjna sztuczna inteligencja polega na zapisywaniu każdej liczby z dokładnością do 32 miejsc po przecinku. DeepSeek pomyślał: „A co by było, gdybyśmy użyli tylko 8 miejsc po przecinku?” Nadal jest dość precyzyjny! » Boom - potrzeba 75% mniej pamięci.
