Marc Andreessen сравнил релиз Deepseek с запуском первого советского спутника в космос, такое же сильное впечатление он произвел в свое время на США.
Deepseek представила серию AI моделей в открытом доступе. Среди них выделяется флагманская DeepSeek-R1 с 671 миллиардами параметров (671B), способная решать сложные задачи в математике, программировании и логике. Производительность сопоставима с топовыми моделями OpenAI.
Мне было интересно какие модели можно запустить у себя локально.
Для пользователей с разными запросами и возможностями DeepSeek выпустила следующие версии моделей: 1.5B, 8B, 14B, 32B и 70B. Они охватывают широкий спектр задач — от экспериментов на «слабом» железе до решений, требующих серьёзной вычислительной мощности. 1.5B и 8B легко запускаются на домашних ПК, тогда как 32B и 70B уже требуют мощные GPU или кластер с несколькими GPU.
- 1.5B требует 4 ГБ VRAM
- 8B — 9 ГБ
- 14B — 12 ГБ
- 30B — 20 Гб
Эти объёмы доступны на современных видеокартах вроде RTX 3090. Более крупные версии 70B (80 ГБ) требуют топовых GPU, а DeepSeek-R1 и R1-Zero (671B) можно запустить лишь на серверах с несколькими видеокартами.
Несколько дней тестировал 8B, 14B и 32B на RTX 3090 и остался впечатлён. Младшие Deepseek модели полноценные оффлайн-ассистенты и поисковики, работающие прямо на домашнем ПК. Сначала пробовал 8B — она быстро запускается и решает базовые задачи, но с более сложными вычислениями не справляется, а главное быстро теряет контекст. Переключившись на 14B, сразу почувствовал разницу - она стала выдавать более точные ответы, рассуждать и помогать в написании кода. Модель 32B отлично пишет тексты, переводит, анализирует статьи, помогает писать код, решает математические и логические задачи и главное отвечает мгновенно и без задержек.
Первым делом попросил модель сгенерировать инструкцию по созданию Telegram-бота, интегрирующего DeepSeek внутрь себя. Модель 8B выдает нерабочий код и не никак не помогает его исправить. Версия 14B выдает код получше и хоть как-то помогает исправлять ошибки, ну а 32B расписала пошаговый план, предложила рабочий код на Python и даже выдала рекомендации по исправлению ошибок и оптимизациям. В результате за 15 минут переписки с 32B бот заработал. При желании можете проверить его по ссылке (https://t.me/deepseek_ollama_bot).
Чтобы оценить модели в математике и логике, я проверял их на простых задачах. Например, задавал пример уровня 5-го класса: «Вычисли 8 ч 14 мин 18 с − 3 ч 28 мин 16 с». ChatGPT-4o ошибается в зависимости от того, как сформулирован вопрос, ChatGPT-o1 (конечно же) даёт правильный ответ, DeepSeek 8B с задачей справиться не смогла, а вот 14B и 32B выдала точное решение и понятную цепочку рассуждений. Скриншоты с результатами добавлены к посту.
Интересно, что энтузиасты уже начали запускать небольшие версии DeepSeek на ARM-процессорах, таких как Raspberry Pi 5. Это значит, что в будущем мы сможем использовать мощные нейросети даже на смартфонах — бесплатно и оффлайн. Более того, специалисты из Unsloth.ai смогли уменьшить вес DeepSeek-671B с более чем 700 ГБ до 150–180 ГБ, что позволяет запускать её на трёх видеокартах с 80 ГБ VRAM.
В заключение скажу, что модели 8B, 14B и 32B хорошо работают только при чётких инструкциях: из-за небольшого размера они всё ещё быстро теряют контекст и начинают «тупить». При этом 32B вполне подходит для точечных простых задач и автоматизаций — например, перевода текста, анализа статей, парсинга данных, помощь в написании небольшого проекта. Также их можно дообучить (fine-tuning) и использовать как поисковики или как базу знаний.
В целом, DeepSeek выпустила интересные модели для ПК. И если сейчас 32B уже может заменить «облачных» ассистентов во многих задачах, то в ближайшем будущем нас, возможно, ждёт революция, когда и 70B, и даже 671B смогут запускаться в куда более компактных системах. Кроме того, DeepSeek недавно анонсировала модель Janus-pro для генерации изображений. Планирую попробовать её в ближайшие дни и, возможно, тоже поделюсь результатами.
Полезное:
- Твит про спутник (https://x.com/pmarca/status/1883640361807163464)
- Сжатие Deepseek-671B до 180Гб (https://unsloth.ai/blog/deepseekr1-dynamic)
- Сэм Альтман о Deepseek (https://x.com/sama/status/1872664379608727589)
- Реакция фондового рынка (https://x.com/brewmarkets/status/1877736282656211322)
[[Сиолошная]] [[Denis sexy IT]] [[addmeto bobuk]]