Наприкінці січня сталася гучна історія, пов’язана з компанією DeepSeek. Мало кому відомий на заході, дешевий китайський стартап, за один день став причиною сотень заголовків найбільших світових видань і струснув весь фондовий ринок.
Коли шок минув, стало зрозуміло, що ця історія не тільки про технологічний стрибок, а й про помітні кроки у великому політичному суперництві, національні інтереси, санкції та страхи. А причиною стала група талановитих інженерів, які, використовуючи небагато доступного, змогли зробити те саме, що й лідери ринку.
DeepSeek – це історія не про одиничний одноденний успіх, продуктом якого ви можете скористатися вже сьогодні, а провісник яскравих майбутніх подій у світі.
LLM і проблема обчислювальної потужності
DeepSeek з’явилася на основі інвесткомпанії (High-Flyer), що займалася алгоритмами машинного навчання для торгівлі акціями. У 2020 році в їхньому розпорядженні був дата-центр, що становив 1100 відеокарт. Уже наступного року, коли OpenAI представила свій революційний ChatGPT-3, почалася справжня “AI-лихоманка“. Засновник High-Flyer Ліанг Венфенг бачить до чого все йде і приймає рішення – так з’являється компанія DeepSeek.
Наріжний камінь розробки таких технологій – обчислювальна потужність, “залізо”. Универсально признанным лучшим оператором таких вычислений являются графические процессоры, видеокарты. Вони забезпечують набагато вищу швидкість обробки даних, вміють проводити паралельні обчислення і мають високі потужності. І що важливо – мають широкий спектр програмного забезпечення, яке підлаштоване під потрібні розробки AI. Тому переважна більшість подібних технологій створюються на основі GPU, а не процесорів. Зрозуміло, виробники добре обізнані в цьому, і давно покрили сегмент ринку, що розвивається, підлаштовуючи відеокарти під нові запити.
Переважаючою думкою було те, що тільки найбільші технологічні компанії зі США, які мають необмежений доступ до чіпів і мільярди доларів, можуть створювати передові LLM (великі лінгвістичні моделі), на основі яких будують AI-боти.
Не менш добре про це обізнані й держави. AI сьогодні – це передова технологія, що проникає в усі сфери майбутнього: армію, медицину, навчання та обробку великих масивів інформації, etc. Розвиток і розв’язання проблем AI сьогодні можна порівняти за величиною свого впливу з розгадкою Розеттського каменю. Тому щоб забезпечити перевагу в глобальних перегонах, адміністрація Байдена обмежила кількість чипів, які можуть бути продані американськими компаніями, як Nvidia, Китаю та іншим суперникам США в галузі.
Саме за таких обставин, подолавши їх несподіваним чином 27 січня і з’явилася DeepSeek, сколихнувши ринок. Обмеження призвели до наслідків. Вони змусили вчених з Китаю знайти рішення, маючи лише малу частину того, що було доступно їхнім конкурентам.
“Тоні Старк зібрав цей реактор, сидячи в ямі!.. З металобрухту!”
DeepSeek набрала штат інженерів, займаючись хедхантингом молодих і талановитих AI-фахівців топових китайський універсетів. Їм було запропоновано високу зарплату і можливість роботи над передовим проектом. І якщо сам проєкт був амбітним, не менш амбітним виявилися і розрахунки на його виконання – інженери зійшлися, що їм необхідно всього $6 млн. доларів. Близько цієї суми коштувало навчання GPT-3 у 2020 році, але передові моделі того часу вже потребували десятки й сотні мільйонів доларів.
Маючи обчислювальну потужність, що поступається конкурентам, DeepSeek могла зробити це тільки створивши метод навчання, який буде в рази ефективнішим. Перший же безкоштовний чат-бот DeepSeek-V3 був гідним конкурентам GPT-4 та іншим AI-ботам.
Після на ринку з’явився ще один продукт. За бенчмарками, DeepSeek-V3 здатна відповідати на запитання, розв’язувати логічні задачі та писати програмний код нарівні з передовими моделями. Однак OpenAI залишається на крок попереду: нова GPT o3 – це модель, здатна “міркувати” під час розв’язання проблем, але ж саме здатність до самостійного і креативного міркування вважається майбутнім (і найслабшим аспектом на сьогодні) AI.
20 січня 2025 року DeepSeek випускає модель R1, що здатна до міркування. Інвестори в США задаються питанням, як невеликий китайський стартап зміг зробити все це, незважаючи на існуючі гарантії безпеки лідерства.
Оптимізація
DeepSeek опублікувала свою дослідницьку роботу, що пояснює, як вони домоглися таких результатів. Вони використовували всього 2 000 графічних чипів, тоді як передові LLM для тренування використовують ~16 000. Як у них це вийшло?
За допомогою розумного та вражаючого рішення – розподілу, названого в дослідницькій роботі “a mixture of experts“. Це окремі модульні нейромережі, експерти, які здатні розв’язувати конкретні задачі, і отримувати їх тільки від інших конкретних експертів. Такий розподіл, на відміну від архітектури chatGPT, де для навчання використовується вся модель цілком, дуже ефективний і відмінно масштабується.
Архітектуру розподілених обчислень намагалися реалізувати і до цього, та в минулому метод показав не найкращі результати: переміщення інформації між експертами всередині моделі вимагало часу. Саме цей аспект було оптимізовано в DeepSeek. Як підсумок – дешеве навчання і “легкість” – нову нейромережу можна розгорнути на вашому телефоні.
Чим насправді є DeepSeek
DeepSeek – мережа з відкритим кодом. Її методи може повторити і використовувати будь-хто.
Повна назва компанії відповідальної за DeepSeek – Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd. Компанія сфокусована і позиціонує себе саме як дослідницька, а не комерційна. Це означає, що весь її код і методи описані та доступні для користування іншими. Таке поширення дає змогу того самого дня розпочати розробку власних рішень, поліпшення або надбудови, минаючи етапи “винаходу велосипеда” за рахунок реверс-інжинірингу та пошуку вже зробленого.
Раніше так уже зробила Meta – модель Llama має відкритий код. Універсальною думкою було, що знизити поріг входу і прискорити розробку AI можна, тільки якщо гігантські компанії, що мають доступ до величезних дата-центрів, будуть ділитися своїми технологіями. DeepSeek показала, що рішення можуть прийти не тільки від нинішніх лідерів індустрії.
AI – це дуже молода сфера, в якій маленька команда ще може створити проривний продукт. Ситуація, тип якої дедалі рідше трапляється з часів створення кремнієвої долини – теперішні розробки коштують великої кількості ресурсів і доступні лише корпораціям.
Репутація і гроші
Однак DeepSeek це не тільки репутаційна перемога, а насамперед скорочення витрат для бізнесу. DeepSeek R1 – це дуже легка та енергоефективна модель, що означає значне скорочення витрат. Припустимо, бізнес вирішив розробити рішення на основі AI-бота. Скільки це коштуватиме? Використовуючи DeepSeek, 1 млн токенів (1 токен – ~0.3 символу латиниці) на обробку обійдеться в 14 центів. У ChatGPT o3-mini – це близько $1,10.
Відновлення ринку
Nvidia відзвітувала про продажі в першому кварталі 2025 року на суму $39 млрд – на 74% більше, ніж у той самий квартал 2024 року. Усе завдяки попиту на чипи штучного інтелекту. DeepSeek кинула виклик, який ненадовго вдарив по акціях Nvidia, але великі компанії, такі як Meta, підтвердили свої інвестиції, відновивши довіру інвесторів. На тлі цього тривають чутки про природу отриманих Китаєм графічних чипів – чи не були вони отримані нелегально, в обхід обмежень? Є повідомлення (без явних джерел), що успіх DeepSeek збільшив запит на графічні чипи на чорному ринку Китаю. Усе це здатне уповільнити розвиток AI за межами США, але точно не зможе його зупинити.
Наслідки
DeepSeek – вкрай цікавий проєкт, що, найімовірніше, є передвісником майбутніх рішень. Це не революція, правила гри не були змінені. Сира обчислювальна потужність і доступ до графічних чипів, як і раніше, є головною підмогою в технологічних перегонах. Їх потрібно все більше для розвитку AI, здатних до роздумів. Чи можуть США утримати провідну роль у розробці штучного інтелекту? Можливо, лише на деякий час.
Понад 70% графічних чипів Nvidia виробляється на Тайвані, об’єкті територіальних суперечок Китаю і США вже довгий час. Вектор розвитку AI – це глобальне питання, відповідь на яке залежить не тільки від часу, а й від безлічі невідомих подій майбутнього.