Китайский ИИ-стартап DeepSeek презентовал новую большую языковую модель, которая, согласно тестам, превосходит аналоги от Meta и OpenAI.

🚀 Introducing DeepSeek-V3!

Biggest leap forward yet:
⚡ 60 tokens/second (3x faster than V2!)
💪 Enhanced capabilities
🛠 API compatibility intact
🌍 Fully open-source models & papers

🐋 1/n pic.twitter.com/p1dV9gJ2Sd
— DeepSeek (@deepseek_ai) December 26, 2024

Модель DeepSeek V3 обладает 671 млрд параметров, что превышает 405 млрд у Llama 3.1. Это говорит о большей способности адаптироваться к сложным задачам и обеспечивать более точные ответы.

Компания из Ханчжоу обучила нейросеть за два месяца с бюджетом 5,58 млн долларов, используя всего 2048 графических процессоров. Это значительно меньше, чем обычно требуется крупным технологическим компаниям. DeepSeek обещает лучшее соотношение цена/качество на рынке.

🎉 What’s new in V3?

🧠 671B MoE parameters
🚀 37B activated parameters
📚 Trained on 14.8T high-quality tokens

🔗 Dive deeper here:
Model 👉 https://t.co/9iwEF6aLuk
Paper 👉 https://t.co/ruzwMFYAAH

🐋 2/n
— DeepSeek (@deepseek_ai) December 26, 2024

В будущем стартап планирует добавить мультимодальность и «другие передовые функции».

Член команды OpenAI Андрей Карпати назвал разработку DeepSeek впечатляющей, особенно в условиях ограниченных ресурсов.

DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).

For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B
— Andrej Karpathy (@karpathy) December 26, 2024

«Это не означает, что большие кластеры GPU больше не нужны для создания продвинутых LLM. Но важно не растрачивать имеющиеся ресурсы. Этот проект демонстрирует, что многое еще можно улучшить как в данных, так и в алгоритмах», — отметил Карпати.

Ранее DeepSeek выпустила «конкурента o1 от OpenAI» — продвинутую «думающую» модель DeepSeek-R1-Lite-Preview.

Напомним, в июле китайская компания Kuaishou открыла доступ к своей ИИ-модели для генерации видео Kling.

Сбер предлагает расширить доступ к операциям с криптовалютами для всех квалифицированных инвесторов

MetaMask позволит пользователям делать ставки на политику и спорт через Polymarket

Разработчики Ethereum представили план Kohaku для повышения приватности и безопасности кошельков

Хакеры украли у трейдера Hyperliquid более $20 млн, получив доступ к приватному ключу

ShapeShift возвращается к приватности с поддержкой Zcash Shielded

Мосбиржа представит десять новых индексов на криптовалюты

Аналитик: рынок драгоценных металлов перегрет, инвесторы начнут переходить в биткоин

BNB обгоняет XRP и становится третьим по величине криптоактивом

Сбер предлагает расширить доступ к операциям с криптовалютами для всех квалифицированных инвесторов

MetaMask позволит пользователям делать ставки на политику и спорт через Polymarket

Разработчики Ethereum представили план Kohaku для повышения приватности и безопасности кошельков

Хакеры украли у трейдера Hyperliquid более $20 млн, получив доступ к приватному ключу

ShapeShift возвращается к приватности с поддержкой Zcash Shielded

Мощнее Meta и OpenAI: китайский стартап DeepSeek представил ИИ-модель