Обнаружен способ запуска модели ИИ 671B от DeepSeek без дорогостоящих графических процессоров
Модель DeepSeek-R1, выпущенная 20 января 2025 года, представляет собой модель Mixture-of-Experts (MoE) с 671B параметрами и 37B активными параметрами на токен. Разработанная для продвинутых рассуждений, она поддерживает 128K входов для токенов и генерирует до 32K токенов. Благодаря архитектуре MoE она обеспечивает высочайшую производительность, используя при этом меньше ресурсов, чем традиционные плотные модели.
Независимое тестирование https://docsbot.ai/models/compare/o1-preview/deepseek-r1#benchmarks показало, что языковая модель R1 достигает производительности, сравнимой с O1 от OpenAI, что делает ее конкурентоспособной альтернативой в приложениях ИИ с высокими ставками. Давайте выясним, что нам нужно, чтобы запустить ее локально.
Аппаратное обеспечение
Эта сборка основана на двух процессорах AMD Epyc и 768 ГБ оперативной памяти DDR5 - дорогие графические процессоры не нужны.
- Корпус: Enthoo Pro 2 Server
- Материнская плата: Gigabyte MZ73-LM0 или MZ73-LM1 (имеет два процессорных гнезда и 24 слота для оперативной памяти)
- Процессор: 2x AMD Epyc 9004/9005 (9115 или 9015 подойдут как более бюджетные варианты)
- Охлаждение: Arctic Freezer 4U-SP5
- Оперативная память: 24x 32GB DDR5 RDIMM (всего 768 ГБ)
- Хранилище: 1TB+ NVMe SSD (для быстрой загрузки 700 ГБ модельных весов)
- Блок питания: Corsair HX1000i (1000 Вт, достаточно для двух процессоров)
Программное обеспечение и настройка
После сборки установите Linux и llama.cpp должны быть установить для запуска модели. Важнейший твик BIOS - установка групп NUMA на 0 - удваивает эффективность оперативной памяти для повышения производительности. Полный 700-гигабайтный массив DeepSeek-R1 можно скачать с сайта Hugging Face.
Производительность
Эта установка генерирует 6-8 жетонов в секунду - совсем неплохо для полностью локальной модели ИИ высокого класса. Она полностью обходится без GPU, но это намеренно. Выполнение квантования Q8 (для высокого качества) на GPU потребовало бы 700 ГБ+ VRAM и стоило бы более $100K. Несмотря на всю свою мощь, вся система потребляет менее 400 Вт, что делает ее удивительно эффективной.
Для тех, кто хочет получить полный контроль над передовым ИИ, без облаков и ограничений, эта система станет революционным решением. Он доказывает, что высококлассный ИИ можно запускать локально, с открытым исходным кодом, при этом уделяя первостепенное внимание конфиденциальности данных, минимизируя уязвимость к взломам и исключая зависимость от внешних систем.
Источник(и)
Мэтью Кэрриган на сайте X, Docsbot, DeepSeekтизерное изображение: Pixabay