Звідки взялася компанія DeepSeek і як вона так швидко здобула світову славу?

Компанія DeepSeek стала вірусною цього тижня після того, як її моделі штучного інтелекту змусили аналітиків з Волл-стріт і технологів засумніватися в тому, що США зможуть зберегти своє лідерство в перегонах штучного інтелекту, і в тому, що попит на чіпи штучного інтелекту буде стійким. DeepSeek навіть стверджує, що її модель R1 «міркування» працює так само добре, як модель o1 від OpenAI в ключових тестах.

DeepSeek App. Source: Techcrunch

Китайська лабораторія штучного інтелекту DeepSeek увірвалася в масову свідомість цього тижня після того, як її застосунок-чатбот піднявся на перші рядки чартів Apple App Store (а також Google Play).

Але звідки взялася компанія DeepSeek і як вона так швидко здобула світову славу?

Трейдерське походження DeepSeek

DeepSeek підтримується High-Flyer Capital Management, китайським кількісним хедж-фондом, який використовує ШІ для обґрунтування своїх торгових рішень.

Ентузіаст штучного інтелекту Лян Веньфен став одним із засновників High-Flyer у 2015 році. Веньфен, який, як повідомляється, почав захоплюватися трейдингом, будучи студентом Чжецзянського університету, 2019 року запустив High-Flyer Capital Management як хедж-фонд, зосереджений на розробці та впровадженні алгоритмів штучного інтелекту.

У 2023 році High-Flyer заснував DeepSeek як лабораторію, що займається дослідженнями інструментів ШІ окремо від свого фінансового бізнесу. З High-Flyer в якості одного з інвесторів, лабораторія виділилася у власну компанію, також названу DeepSeek.

З першого дня DeepSeek побудувала власні кластери дата-центрів для навчання моделей. Але, як і інші китайські ШІ-компанії, DeepSeek постраждала від заборон США на експорт обладнання. Для навчання однієї зі своїх останніх моделей компанія була змушена використовувати чипи Nvidia H800 — менш потужну версію чипа H100, доступного американським компаніям.

Технічна команда DeepSeek, як кажуть, дуже молода. Повідомляється, що компанія активно набирає докторів наук зі штучного інтелекту з провідних китайських університетів. За даними The New York Times, DeepSeek також наймає людей, які не мають жодної освіти в галузі комп’ютерних наук, щоб допомогти своїм технологіям краще зрозуміти широке коло питань.

Сильні моделі DeepSeek

DeepSeek представила свій перший набір моделей — DeepSeek Coder, DeepSeek LLM і DeepSeek Chat — у листопаді 2023 року. Але тільки минулої весни, коли стартап випустив сімейство моделей нового покоління DeepSeek-V2, індустрія ШІ звернула на них увагу.

DeepSeek-V2, універсальна система аналізу текстів і зображень, показала чудові результати в різних бенчмарках ШІ — і водночас була набагато дешевшою, ніж аналогічні моделі того часу. Це змусило вітчизняних конкурентів DeepSeek, включно з ByteDance і Alibaba, знизити ціни на використання деяких своїх моделей, а інші зробити повністю безкоштовними.

DeepSeek-V3, запущений у грудні 2024 року, тільки посилив погану славу DeepSeek.

Згідно з внутрішніми еталонними тестами DeepSeek, DeepSeek V3 перевершує як завантажувані, відкриті моделі, як-от Meta’s Llama, так і «закриті» моделі, доступ до яких можливий тільки через API, як-от OpenAI’s GPT-4o.

Не менш вражаючою є «міркувальна» модель R1 від DeepSeek. Випущена в січні, модель R1, за твердженням DeepSeek, демонструє такі ж високі результати, як і модель o1 від OpenAI, у ключових бенчмарках.

Будучи міркувальною моделлю, R1 ефективно перевіряє факти, що допомагає їй уникнути деяких підводних каменів, які зазвичай підстерігають моделі. Моделям, які міркують, потрібно трохи більше часу — зазвичай від кількох секунд до кількох хвилин, — щоб дійти висновку, порівняно з типовою моделлю, яка не міркує. Плюсом є те, що вони надійніші в таких галузях, як фізика, наука і математика.

Однак у R1, DeepSeek V3 та інших моделей DeepSeek є і зворотний бік. Будучи ШІ китайської розробки, вони підлягають контролю з боку китайського інтернет-регулятора, щоб переконатися, що їхні відповіді «втілюють основні соціалістичні цінності». Наприклад, у додатку-чатботі DeepSeek R1 не відповідатиме на запитання про площу Тяньаньмень або автономію Тайваню.

Підривний підхід

Якщо у DeepSeek і є бізнес-модель, то не зовсім зрозуміло, у чому саме вона полягає. Компанія встановлює ціни на свої продукти і послуги набагато нижчі за ринкову вартість, а інші роздає безкоштовно.

За словами DeepSeek, прорив в ефективності дозволив їй зберегти надзвичайну конкурентоспроможність за вартістю. Однак деякі експерти заперечують дані компанії.

Хай там як, розробники прийняли моделі DeepSeek, які не є відкритим вихідним кодом у загальноприйнятому розумінні цього слова, але доступні за дозвільними ліцензіями, що допускають комерційне використання. За словами Клема Деланга, генерального директора Hugging Face, однієї з платформ, на якій розміщуються моделі DeepSeek, розробники на Hugging Face створили понад 500 «похідних» моделей R1, які загалом було завантажено 2,5 мільйона разів.

Успіх DeepSeek у боротьбі з більшими й авторитетнішими конкурентами було названо «переворотом ШІ» і «надмірним галасом». Успіх компанії, принаймні частково, став причиною падіння курсу акцій Nvidia на 18 % у понеділок, а також викликав публічну реакцію з боку генерального директора OpenAI Сема Альтмана.

Microsoft оголосила, що DeepSeek доступний на сервісі Azure AI Foundry — платформі Microsoft, що об’єднує сервіси ШІ для підприємств під єдиним банером. Відповідаючи на запитання про вплив DeepSeek на витрати Meta на ШІ в першому кварталі, генеральний директор Марк Цукерберг сказав, що витрати на інфраструктуру ШІ залишатимуться «стратегічною перевагою» для Meta.

Що стосується майбутнього DeepSeek, то воно неясне. Поліпшення моделей — це само собою зрозуміле. Але уряд США, схоже, дедалі більше побоюється того, що він сприймає як шкідливий іноземний вплив.