Лаборатория в Китае запустила одну из самых мощных открытых моделей искусственного интеллекта. Модель под названием DeepSeek V3 была разработана компанией DeepSeek, занимающейся искусственным интеллектом, и стала доступна в среду по гибкой лицензии. Это позволяет разработчикам загружать и адаптировать его для различных пользователей, включая коммерческие приложения.
DeepSeek V3 — эксперт в решении широкого спектра текстовых задач, таких как перевод, написание эссе, кодирование и составление электронных писем на основе описательных и подробных подсказок.
Согласно внутренним тестам, проведенным DeepSeek, DeepSeek V3 превосходит как свободно доступные модели, так и проприетарные системы искусственного интеллекта, которым требуется доступ через API. В серии задач по кодированию на Codeforces DeekSeek как конкурентоспособная платформа программирования превосходит другие модели, включая GPT-4o от OpenAI, Llama 3.1 405B и Qwen 2.5 72B от Alibaba.
Более того, DeepSeek V3 доминирует в Aider Polygot — тесте, предназначенном для оценки способности модели писать новый код, который легко интегрируется с существующими базами кода.
DeepSeek подчеркивает, что DeepSeek V3 был обучен на потрясающем наборе данных, состоящем из 14,8 триллионов токенов. В мире науки о данных токены представляют собой фрагменты необработанных данных: один миллион токенов соответствует 750 000 слов.
Масштаб DeepSeek V3 не менее впечатляет: он может похвастаться 671 миллиардом параметров или 685 миллиардами на платформе разработки искусственного интеллекта Hugging Face. Эти параметры представляют собой внутренние переменные, которые модели используют для прогнозирования или принятия решений. Это примерно в 1,6 раза больше, чем у Llama 3.1 405 B, которая имеет около 405 параметров слитка.
Для того чтобы неоптимизированная версия DeepSeek V3 могла отвечать на запросы с приемлемой скоростью, потребуется кластер высокопроизводительных графических процессоров. Несмотря на то, что DeepSeek V3, возможно, не самая практичная доступная модель, это важная веха.