Содержание𒊹
В конце января произошла громкая история, связанный с компанией DeepSeek. Мало кому известный на западе, дешевый китайский стартап, за один день стал причиной сотен заголовков крупнейших мировых изданий и встряхнул весь фондовый рынок.
Когда шок прошел, стало понятно, что эта история не только о технологическом скачке, но о заметных шагах в крупном политическом соперничестве, национальных интересах, санкциях и страхах. А причиной стала группа талантливых инженеров, которые используя немногое доступное, смогли сделать то же, что и лидеры рынка.
DeepSeek – это история не о единичном однодневном успехе, продуктом которого вы можете воспользоваться уже сегодня, а предвестник яркий будущих событий в мире.
LLM и проблема вычислительной мощности
DeepSeek появилась на основе инвест-компании (High-Flyer), занимавшейся алгоритмами машинного обучения для торговли акциями. В 2020 году в их распоряжении был дата-центр, составляющий 1100 видеокарт. Уже в следующем году, когда OpenAI представила свой революционный ChatGPT-3, началась настоящая “AI-лихорадка”. Основатель High-Flyer Лианг Венфенг видит к чему всё идёт и принимает решение – так появляется компания DeepSeek.
Краеугольный камень разработки таких технологий – вычислительная мощность, “железо”. Универсально признанным лучшим оператором таких вычислений являются графические процессоры, видеокарты. Они обеспечивают гораздо более высокую скорость обработки данных, умеют производить параллельные вычисления и имеют высокие мощности. И что немаловажно – имеют широкий спектр программного обеспечения, которое подстроено под нужны разработки AI. Поэтому подавляющее большинство подобных технологий создаются на основе GPU, а не процессоров. Разумеется, производители хорошо осведомлены в этом, и давно покрыли развивающийся сегмент рынка, подстраивая видеокарты под новые запросы.
Преобладающим мнением было то, что только крупнейшие технологические компании из США, имеющие неограниченный доступ к чипам и миллиарды долларов, могут создавать передовые LLM (большие лингвистические модели), на основе которых строятся AI-боты.
Не менее хорошо об этом осведомлены и государства. AI сегодня – это передовая технология, проникающая во все сферы будущего: армию, медицину, обучение и обработку больших массивов информации, etc. Развитие и решение проблем AI сегодня сравнимо с величиной своего влияния с разгадкой Розеттского камня. Поэтому чтобы обеспечить преимущество в глобальной гонке, администрация Байдена, ограничила количество чипов, которые могут быть проданы американскими компаниями, как Nvidia, Китаю и прочим соперникам США в отрасли.
Именно в таких обстоятельствах, преодолев их неожиданным образом 27 января и появилась DeepSeek, всколыхнув рынок. Ограничения привели к последствиям. Они вынудили ученых из Китая найти решения, имея только малую часть того, что было доступно их конкурентам.
“Тони Старк собрал этот реактор, сидя в яме!.. Из металлолома!”
DeepSeek набрала штат инженеров, занимаясь хедхантингом молодых и талантливых AI-специалистов топовых китайский универсетов. Им была предложена высокая зарплата и возможность работы над передовым проектом. И если сам проект был амбициозным, не менее амбициозным оказались и расчеты на его исполнение – инженеры сошлись, что им необходимо всего $6 млн. долларов. Около этой суммы стоило обучение GPT-3 в 2020 году, но передовые модели того времени уже требовали десятки и сотни миллионов долларов.
Имея вычислительную мощность, уступающую конкурентам, DeepSeek могла сделать это только создав метод обучения, который будет в разы эффективнее. Первый же бесплатный чат-бот DeepSeek-V3 был достойным конкурентам GPT-4 и остальным AI-ботам.
После на рынке появился еще один продукт. По бенчмаркам, DeepSeek-V3 способна отвечать на вопросы, решать логические задачи и писать программный код наравне с передовыми моделями. Однако OpenAI остается на шаг впереди: новая GPT o3 – это модель, способная “рассуждать” при решении проблем, а ведь именно способность к самостоятельному и креативному рассуждению считается будущим (и самым аспектом слабым на сегодня) AI.
20 января 2025 DeepSeek выпускает модель R1, что способна к рассуждению. Инвесторы в США задаются вопросом как небольшой китайский стартап смог сделать все это, несмотря на существовавшие гарантии безопасности лидерства.
Оптимизация
DeepSeek опубликовала свою исследовательскую работу, объясняющую как они добились таких результатов. Они использовали всего 2 000 графических чипов, в то время как передовые LLM для тренировки используют ~16 000. Как у них это получилось?
С помощью умного и впечатляющего решения – распределения, названного в исследовательской работе “a mixture of experts”. Это отдельные модульные нейросети, эксперты, которые способны решать конкретные задачи, и получать их только от других конкретных экспертов. Такое распределение, в отличии от архитектуры chatGPT, где для обучения используется вся модель целиком, очень эффективное и отлично масштабируется.
Архитектуру распределенных вычислений пытались реализовать и до этого, и в прошлом метод показал не лучшие результаты: перемещение информации между экспертами внутри модели требовало времени. Именно этот аспект был оптимизирован в DeepSeek. Как итог – дешевое обучение и “легкость” – новую нейросеть можно развернуть на вашем телефоне.
Чем на самом деле является DeepSeek
DeepSeek – сеть с открытым кодом. Ее методы может повторить и использовать любой.
Полное название компании ответственной за DeepSeek – Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd. Компания сфокусирована и позиционирует себя именно как исследовательская, а не коммерческая. Это означает, что весь ее код и методы описаны и доступны для пользования другими. Такое распространение позволяет в тот же день приступить к разработке собственных решений, улучшению или надстройкам, минуя этапы “изобретения велосипеда” за счет реверс-инжиниринга и поиска уже сделанного.
Ранее так уже сделала Meta – модель Llama имеет открытый код. Универсальным мнением было, что снизить порог входа и ускорить разработку AI можно только если гигантские компании, имеющие доступ к огромным дата-центрам, будут делиться своими технологиями. DeepSeek показала, что решения могут прийти не только от нынешних лидеров индустрии.
AI – это очень молодая сфера, в которой маленькая команда еще может создать прорывной продукт. Ситуация, тип которой все реже происходит со времен создания кремниевой долины – нынешние разработки стоят большого количества ресурсов и доступны только корпорациям.
Репутация и деньги
Однако DeepSeek это не только репутационная победа, а в первую очередь сокращение расходов для бизнеса. DeepSeek R1 – это очень лёгкая и энергоэффективная модель, что означает значительное сокращение затрат. Допустим, бизнес решил разработать решение на основе AI-бота. Сколько это будет стоить? Используя DeepSeek, 1 млн токенов (1 токен – ~0.3 символа латиницы) на обработку обойдется в 14 центов. В ChatGPT o3-mini – это около $1,10.
Восстановление рынка
Nvidia отчиталась о продажах в первом квартале 2025 на сумму $39 млрд – на 74% больше, чем в тот же квартал 2024 года. Все благодаря спросу на чипы искусственного интеллекта. DeepSeek бросила вызов, который ненадолго ударил по акциям Nvidia, но крупные компание, такие как Meta, подтвердили свои инвестиции, восстановив доверие инвесторов. На фоне этого продолжаются слухи о природе полученных Китаем графических чипов – не были ли они получены нелегально, в обход ограничений? Есть сообщения (без явных источников), что успех DeepSeek увеличил запрос на графические чипы на чёрном рынке Китая. Все это способно замедлить развитие AI за пределами США, но точно не сможет его остановить.
Последствия
DeepSeek – крайне интересный проект, что, скорее всего, является предвестником будущих решений. Это не революция, правила игры не были изменены. Сырая вычислительная мощь и доступ к графическим чипам по-прежнему является главным подспорьем в технологической гонке. Их требуется все больше для развития AI, способных к размышлению. Могут ли США удержать ведущую роль в разработке искусственного интеллекта? Возможно, лишь на время.
Более 70% графических чипов Nvidia производится на Тайване, объекте территориальных споров Китая и США уже долгое время. Вектор развития AI – это глобальный вопрос, ответ на который зависит не только от времени, но и от множества неизвестных событий будущего.