DeepSeek V3和R1系列开源AI大模型在多语言理解和复杂推理任务中表现出色,推动了AI技术的普及与发展,为开源社区做出了重要贡献。虽然DeepSeek的硬件设施细节未完全公开,但普遍认为其大量使用了NVIDIA AI芯片,如H100、H800、H20等型号。最新消息显示,DeepSeek还验证了华为最新的AI芯片昇腾910C。
昇腾910C于2024年晚些时候曝光,已向部分客户批量供货,包括阿里巴巴、百度、腾讯等公司,首批供货约7万颗,每颗价格约2万元。该芯片采用中芯国际的7nm工艺制造,采用chiplets双芯片整合封装,晶体管数量达530亿个,国产化率约为55%。它在FP8、FP16、FP32、FP64等数据类型下表现优异,可替代NVIDIA H100,适用于大规模AI训练和推理。
根据DeepSeek团队的实测数据,昇腾910C在AI推理中的表现已达到NVIDIA H100芯片的60%左右,通过手写CUNN内核和优化,其性能还可进一步提升。DeepSeek从初期就支持华为昇腾芯片,自主维护PyTorch仓库,只需一行代码即可将CUDA转换为CANN(昇腾AI异构计算框架),性能优化潜力巨大。
华为宣布DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro已上线昇腾社区,支持一键获取DeepSeek系列模型,并在昇腾硬件平台上开箱即用。DeepSeek-V3于2024年上线并开源,为自研MoE模型,拥有671B参数,激活37B,预训练数据达14.8T token,多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等开源模型,性能与GPT-4o和Claude-3.5-Sonnet相当。
华为纯血鸿蒙HarmonyOS NEXT的小艺助手App已接入DeepSeek,智能体广场上线了DeepSeek-R1的Beta版。用户将小艺助手升级至11.2.10.310版本及以上,即可在“发现”栏中找到智能体广场。
潞晨科技与昇腾合作,发布了基于昇腾算力的DeepSeek-R1系列推理API及云镜像服务,潞晨以自研国产推理引擎为技术底座,成功实现昇腾算力与DeepSeek-R1系列模型的推理适配优化,性能与高端GPU持平,为开发者提供高效、灵活、稳定的AI推理服务,助力企业降本增效。
腾讯、阿里等公司也宣布在其云服务中接入DeepSeek。目前多家科技巨头已开始支持并部署DeepSeek,国产硬件也在加速适配。摩尔线程和壁仞两大国产GPU已快速完成对DeepSeek蒸馏模型推理服务的适配。摩尔线程通过自研全功能GPU,基于Ollama开源框架,完成了DeepSeek-R1-Distill-Qwen-7B蒸馏模型的部署,在多种中文任务中表现出色,验证了其GPU的通用性与CUDA兼容性。
摩尔线程自主研发的高性能推理引擎结合软硬件协同优化技术,显著提升了模型的计算效率和资源利用率,该引擎不仅支持DeepSeek蒸馏模型的高效运行,还为未来大规模模型的部署提供了技术保障。摩尔线程即将开放自主设计的夸娥(KUAE)GPU智算集群,支持DeepSeek V3、R1模型及新一代蒸馏模型的分布式部署。
壁仞科技的壁砺系列GPU产品在短时间内完成对DeepSeek R1全系列蒸馏模型的支持,涵盖从1.5B到70B各等级参数版本,包括LLaMA蒸馏模型和千问蒸馏模型,壁仞科技成为少数实现国际、国内多模型同步高效适配的芯片平台之一,证明了国产芯片在复杂AI应用任务中的能力。
DeepSeek提供的模型蒸馏技术能够将大规模模型的能力迁移至更小、更高效的版本,通过MLA、DeepSeek MoE两大核心技术降低显存占用,优化模型性能。壁仞科技的壁砺系列GPU产品成功支持DeepSeek全系列蒸馏模型。
DeepSeek开发的大语言模型绕过了英伟达的CUDA框架,为快速兼容国产GPU芯片铺平了道路。英伟达的CUDA降低了研发大模型的难度,在AI芯片领域占据垄断地位。DeepSeek在使用NVIDIA H800芯片训练时,使用了NVIDIA底层硬件指令PTX语言,而非CUDA。PTX在接近汇编语言的层级运行,允许细粒度优化,如寄存器分配和Thread/Warp级别的调整,这种编程方式复杂且难以维护,但DeepSeek通过极致优化实现了高性能。
北京航空航天大学副教授黄雷指出,绕过CUDA可以直接根据GPU的驱动函数进行开发,实现更细粒度的操作。DeepSeek拥有擅长PTX语言的开发者,未来,若使用国产GPU,DeepSeek在硬件适配方面将更加得心应手,只需了解硬件驱动提供的基本函数接口,即可仿照英伟达GPU的编程接口编写代码,使其大模型更容易适配国产硬件。