Откуда взялась компания DeepSeek и как она так быстро обрела мировую славу?

Компания DeepSeek стала вирусной на этой неделе после того, как ее модели искусственного интеллекта заставили аналитиков с Уолл-стрит и технологов усомниться в том, что США смогут сохранить свое лидерство в гонке искусственного интеллекта, и в том, что спрос на чипы искусственного интеллекта будет устойчивым. DeepSeek даже утверждает, что ее модель R1 «рассуждения» работает так же хорошо, как модель o1 от OpenAI в ключевых тестах.

DeepSeek App. Source: Techcrunch

Китайская лаборатория искусственного интеллекта DeepSeek ворвалась в массовое сознание на этой неделе после того, как ее приложение-чатбот поднялось на первые строчки чартов Apple App Store (а также Google Play).

Но откуда взялась компания DeepSeek и как она так быстро обрела мировую славу?

Трейдерское происхождение DeepSeek

DeepSeek поддерживается High-Flyer Capital Management, китайским количественным хедж-фондом, который использует ИИ для обоснования своих торговых решений.

Энтузиаст искусственного интеллекта Лян Вэньфэн стал одним из основателей High-Flyer в 2015 году. Вэньфэн, который, как сообщается, начал увлекаться трейдингом, будучи студентом Чжэцзянского университета, в 2019 году запустил High-Flyer Capital Management как хедж-фонд, сосредоточенный на разработке и внедрении алгоритмов искусственного интеллекта.

В 2023 году High-Flyer основал DeepSeek как лабораторию, занимающуюся исследованиями инструментов ИИ отдельно от своего финансового бизнеса. С High-Flyer в качестве одного из инвесторов, лаборатория выделилась в собственную компанию, также названную DeepSeek.

С первого дня DeepSeek построила собственные кластеры дата-центров для обучения моделей. Но, как и другие китайские ИИ-компании, DeepSeek пострадала от запретов США на экспорт оборудования. Для обучения одной из своих последних моделей компания была вынуждена использовать чипы Nvidia H800 — менее мощную версию чипа H100, доступного американским компаниям.

Техническая команда DeepSeek, как говорят, очень молода. Сообщается, что компания активно набирает докторов наук по искусственному интеллекту из ведущих китайских университетов. По данным The New York Times, DeepSeek также нанимает людей, не имеющих никакого образования в области компьютерных наук, чтобы помочь своим технологиям лучше понять широкий круг вопросов.

Сильные модели DeepSeek

DeepSeek представила свой первый набор моделей — DeepSeek Coder, DeepSeek LLM и DeepSeek Chat — в ноябре 2023 года. Но только прошлой весной, когда стартап выпустил семейство моделей нового поколения DeepSeek-V2, индустрия ИИ обратила на них внимание.

DeepSeek-V2, универсальная система анализа текстов и изображений, показала отличные результаты в различных бенчмарках ИИ — и при этом была гораздо дешевле, чем аналогичные модели того времени. Это заставило отечественных конкурентов DeepSeek, включая ByteDance и Alibaba, снизить цены на использование некоторых своих моделей, а другие сделать полностью бесплатными.

DeepSeek-V3, запущенный в декабре 2024 года, только усугубил дурную славу DeepSeek.

Согласно внутренним эталонным тестам DeepSeek, DeepSeek V3 превосходит как загружаемые, открытые модели, такие как Meta’s Llama, так и «закрытые» модели, доступ к которым возможен только через API, такие как OpenAI’s GPT-4o.

Не менее впечатляющей является «рассуждающая» модель R1 от DeepSeek. Выпущенная в январе, модель R1, по утверждению DeepSeek, демонстрирует такие же высокие результаты, как и модель o1 от OpenAI, в ключевых бенчмарках.

Будучи рассуждающей моделью, R1 эффективно проверяет факты, что помогает ей избежать некоторых подводных камней, которые обычно подстерегают модели. Рассуждающим моделям требуется немного больше времени — обычно от нескольких секунд до нескольких минут — чтобы прийти к решению по сравнению с типичной нерассуждающей моделью. Плюсом является то, что они более надежны в таких областях, как физика, наука и математика.

Однако у R1, DeepSeek V3 и других моделей DeepSeek есть и обратная сторона. Будучи ИИ китайской разработки, они подлежат контролю со стороны китайского интернет-регулятора, чтобы убедиться, что их ответы «воплощают основные социалистические ценности». Например, в приложении-чатботе DeepSeek R1 не будет отвечать на вопросы о площади Тяньаньмэнь или автономии Тайваня.

Подрывной подход

Если у DeepSeek и есть бизнес-модель, то не совсем понятно, в чем именно она заключается. Компания устанавливает цены на свои продукты и услуги намного ниже рыночной стоимости, а другие раздает бесплатно.

По словам DeepSeek, прорыв в эффективности позволил ей сохранить чрезвычайную конкурентоспособность по стоимости. Однако некоторые эксперты оспаривают данные компании.

Как бы то ни было, разработчики приняли модели DeepSeek, которые не являются открытым исходным кодом в общепринятом понимании этого слова, но доступны по разрешительным лицензиям, допускающим коммерческое использование. По словам Клема Деланга, генерального директора Hugging Face, одной из платформ, на которой размещаются модели DeepSeek, разработчики на Hugging Face создали более 500 «производных» моделей R1, которые в общей сложности были загружены 2,5 миллиона раз.

Успех DeepSeek в борьбе с более крупными и авторитетными конкурентами был назван «переворотом ИИ» и «чрезмерной шумихой». Успех компании, по крайней мере частично, стал причиной падения курса акций Nvidia на 18 % в понедельник, а также вызвал публичную реакцию со стороны генерального директора OpenAI Сэма Альтмана.

Microsoft объявила, что DeepSeek доступен на сервисе Azure AI Foundry — платформе Microsoft, объединяющей сервисы ИИ для предприятий под единым баннером. Отвечая на вопрос о влиянии DeepSeek на расходы Meta на ИИ в первом квартале, генеральный директор Марк Цукерберг сказал, что расходы на инфраструктуру ИИ будут оставаться «стратегическим преимуществом» для Meta.

Что касается будущего DeepSeek, то оно неясно. Улучшение моделей — это само собой разумеющееся. Но правительство США, похоже, все больше опасается того, что оно воспринимает как вредное иностранное влияние.