Лабораторія в Китаї запустила одну з найпотужніших відкритих моделей ШІ. Модель під назвою DeepSeek V3 була створена компанією DeepSeek, що займається штучним інтелектом, і була доступна в середу за гнучкою ліцензією. Це дозволяє розробникам завантажувати та адаптувати його для різних користувачів, у тому числі для комерційних програм.

DeepSeek V3 є експертом із керування широким спектром текстових завдань, таких як переклад, складання есе, кодування та складання електронних листів на основі описових і детальних підказок.

На основі внутрішніх тестів, проведених DeepSeek, DeepSeek V3 перевершує як вільнодоступні моделі, так і власні системи ШІ, яким потрібен доступ до API. У серії завдань кодування на Codeforces DeekSeek як конкурентоспроможна платформа програмування перевершує інші моделі, включаючи GPT-4o від OpenAI, Llama 3.1 405B і Qwen 2.5 72B від Alibaba.

Крім того, DeepSeek V3 має перевагу в Aider Polygot, який є тестом, призначеним для оцінки здатності моделі писати новий код, який бездоганно інтегрується з існуючими кодовими базами.

DeepSeek підкреслює, що DeepSeek V3 був навчений на дивовижному наборі даних, який складається з 14,8 трильйонів токенів. У світі науки про дані токени представляють фрагменти необроблених даних, причому один мільйон токенів відповідає 750 000 слів.

Масштаб DeepSeek V3 настільки ж вражаючий, і він може похвалитися 671 мільярдом параметрів або 685 мільярдами на платформі розробки ШІ Hugging Face. Ці параметри є внутрішніми змінними, які моделі використовують для прогнозування або прийняття рішень. Це робить його приблизно в 1,6 рази більшим за Llama 3.1 405 B, який має близько 405 параметрів у злитках.

Існувала б потреба в кластері високопродуктивних графічних процесорів для неоптимізованої версії DeepSeek V3, щоб відповідати на запити з прийнятною швидкістю. Незважаючи на те, що це може бути не найпрактичніша модель, DeepSeek V3 є важливою віхою.

От admin