DeepSeek представляє прозорий ШІ

Китайська компанія ШІ, DeepSeek, представила свою останню систему ШІ, DeepSeek-R1-Lite-Preview, що позначає значний прогрес у міркуванні та вирішенні проблем.

Система, позиціонована як конкурент o1 від OpenAI, виділяється тим, що покращує прозорість та вдосконалює обробку складних запитів.

🚀 DeepSeek-R1-Lite-Preview тепер в ефірі: звільнення суперзарядженої потужності міркування!

🔍 продуктивність на рівні o1-preview на тестах AIME та MATH.
💡 Прозорий процес мислення в реальному часі.
🛠️ Моделі з відкритим кодом та API незабаром!

🌐 Спробуйте це зараз на https://t.co/v1TFy7LHNy#DeepSeek pic.twitter.com/saslkq4a1s

— DeepSeek (@deepseek_ai) 20 листопада 2024

На відміну від традиційних моделей, які часто не помічають нюансів, DeepSeek-R1-Lite виділяє більше часу на перевірку фактів та ретельне розгляд питань, зменшуючи загальні помилки.

Подібно до o1 від OpenAI, DeepSeek-R1 планує свої відповіді поетапно, витрачаючи до десятків секунд на складні запити, щоб забезпечити точність.

Коментатори вказали на іронію прозорості DeepSeek, особливо в порівнянні з західними моделями, які ще не повністю вирішили проблеми міркування.

Остання версія DeepSeek вже продемонструвала вражаючі результати на тестах з вирішення проблем, таких як Американський запрошувальний математичний іспит (AIME) та MATH, які оцінюють математичну та логічну компетентність.

Ця продуктивність позиціонує DeepSeek-R1 як серйозного конкурента ChatGPT від OpenAI та його спеціалізованій моделі o1.

🌟 Закони масштабування висновків DeepSeek-R1-Lite-Preview
Довше міркування, краща продуктивність. DeepSeek-R1-Lite-Preview демонструє стабільне покращення результатів на AIME, коли зростає довжина думки. pic.twitter.com/zVk1GeOqgP

— DeepSeek (@deepseek_ai) 20 листопада 2024

З швидким розвитком генеративного ШІ, випуск DeepSeek-R1-Lite-Preview та нещодавні оновлення від Le Chat Mistral AI сигналізують про зростаючу конкуренцію в сфері ШІ, змушуючи компанії вирішувати слабкі місця та пропонувати більш надійні, прозорі рішення.

DeepSeek перемагає в поетапному міркуванні

DeepSeek підкреслює здатність свого ШІ надавати поетапне міркування в реальному часі, підвищуючи прозорість та дозволяючи користувачам краще зрозуміти його процес мислення.

Крім цієї функції, компанія планує випустити відкриту модель і інструменти для розробників через API в найближчому майбутньому.

Нещодавня діаграма порівняння від експерта з ШІ Ендрю Куррана показує, що DeepSeek-R1-Lite-Preview перевершує конкурентів, таких як o1-preview від OpenAI та Claude 3.5 Sonnet у ключових метриках, таких як AIME (52.5) та Codeforces (1450), а також виділяється в складних завданнях вирішення проблем, таких як MATH-500 (91.6).

Через два місяці після оголошення o1-preview, його логічне міркування Chain-of-Thought було відтворено. Кит тепер може міркувати. DeepSeek стверджує, що офіційна версія DeepSeek-R1 буде повністю відкритим кодом. https://t.co/Ya9mVyLvDP pic.twitter.com/6wZ8xoAyyz

— Ендрю Курран (@AndrewCurran_) 20 листопада 2024

Однак він відстає в таких областях, як GPQA Diamond (58.5) та Zebra Logic (56.6), де o1-preview від OpenAI демонструє кращі результати, отримуючи 73.3 і 71.4 відповідно.

Ці дані свідчать про те, що хоча ШІ DeepSeek демонструє значний потенціал у певних областях просунутого міркування, залишається місце для вдосконалення в загальних знаннях та логічному міркуванні.

Моделі ШІ від великих лабораторій покращуються мінімально

Штучний інтелект DeepSeek викликав занепокоєння через свою вразливість до зламу, що дозволяє користувачам запитувати модель способом, який обминає її запобіжники.

Наприклад, один користувач X (раніше відомий як Twitter) успішно запросив ШІ надати детальний рецепт мету.

🚨 ПОВІДОМЛЕННЯ ПРО ЗЛАМ 🚨

DEEPSEEK: ЗЛАМАНО 😎
DEEPSEEK-R1-LITE: ВИЗВОЛЕНО 🦅

ВАУ... це дійсно вражає. Я хотів дізнатися, чи зможе BASILISK PRIME впоратися з цим зламом самостійно... і відповідь - ТАК!

Агент зміг увійти до gmail, перейти до DeepSeek chat, увійти через… pic.twitter.com/Ax4R2ZfPKU

— Пліній Визволитель 🐉 (@elder_plinius) 20 листопада 2024

З іншого боку, DeepSeek-R1 помітно чутливий до політичних запитів, особливо тих, що стосуються китайського керівництва, подій, таких як протест на Тяньаньмень, або суперечливих геополітичних тем, таких як Тайвань.

Ця поведінка, ймовірно, виникає внаслідок регуляторного тиску в Китаї, де моделі ШІ повинні дотримуватися "основних соціалістичних цінностей" уряду та проходити перевірку інтернет-регулятора країни.

Звіти свідчать, що системи ШІ в Китаї часто обмежені у використанні певних джерел, що призводить до моделей, які уникають відповідей на політично чутливі теми, щоб забезпечити відповідність державним вимогам.

Оскільки ці регуляторні виклики розгортаються, ширша спільнота ШІ переоцінює давню концепцію "закону масштабування".

Ця теорія стверджувала, що зростання обсягів даних і обчислювальної потужності постійно покращуватиме продуктивність моделі.

Однак нещодавні звіти свідчать, що моделі від великих лабораторій, таких як OpenAI, Google та Anthropic, більше не демонструють швидких покращень, які вони колись показували.

Це зрушення викликало пошук альтернативних підходів, архітектур і технік ШІ, включаючи обчислення під час тестування — інновацію, яку видно в моделях, таких як o1 і DeepSeek-R1.

Відомий як обчислення висновків, цей метод надає моделям додатковий час обробки під час виконання завдань, пропонуючи потенційний шлях для подолання обмежень традиційних методів масштабування.

Коли його запитали, чи краще це, ніж ChatGPT від OpenAI, він ухилився від відповіді, як видно нижче.

Занурення в DeepSeek

DeepSeek, компанія з планами відкрити код своєї моделі DeepSeek-R1 та випустити API, працює в захоплюючій ніші в ландшафті ШІ.

Підтримуваний High-Flyer Capital Management, китайським кількісним хедж-фондом, який використовує ШІ для торгових рішень, підхід DeepSeek є як амбітним, так і стратегічним.

Однією з її ранніх інновацій, універсальний DeepSeek-V2, який аналізує як текст, так і зображення, спонукав великих конкурентів, таких як ByteDance, Baidu та Alibaba, знизити свої збори за використання моделей і навіть зробити деякі послуги абсолютно безкоштовними.

DeepSeek Coder-V2 тільки що вгадав відповідь і отримав її правильно, що https://t.co/c2ExGHuXgz pic.twitter.com/qnLC4OTrk7

— Джі-Ха (@Ji_Ha_Kim) 22 липня 2024

High-Flyer, відомий своїми значними інвестиціями в інфраструктуру ШІ, будує свої власні серверні кластери для навчання моделей.

Остання ітерація, як повідомляється, має 10,000 графічних процесорів Nvidia A100, вартість яких наближається до 1 мільярда єн (~138 мільйонів доларів).

Заснована випускником комп'ютерних наук Лянгом Веньфенгом, High-Flyer Capital Management має на меті розширити межі ШІ за допомогою DeepSeek, націлюючись на розробку "суперінтелектуальних" систем, які можуть переосмислити майбутнє ШІ.