龙芯举办的发布会上,除推出龙芯3C6000系列服务器处理器、龙芯2K3000/3B6000M工控与终端处理器外,首次披露了GPU图形核心领域的未来多代技术和产品规划。这条从解决配套难题起步的自主研发之路,正逐步勾勒出清晰的技术进阶轨迹。
龙芯主业是CPU通用处理器,启动GPU项目最初想法简单,就是解决与龙芯CPU的配套问题。当时进口低端GPU芯片供货不稳定,嵌入式GPU不适合桌面场景,拥有自主CPU和GPU,才能形成自我配套的系统优势,降低系统成本。
2016年,龙芯GPU项目立项,比许多人预想的早。此后几年,研发按部就班推进:2017年开展图形算法调研,2018年进行总体架构设计,同时启动结构模拟器设计,2019年完成模拟器验证,转入逻辑与结构设计阶段。
2020年,首款GPU LG100诞生,应用于龙芯2K2000处理器、龙芯7A2000桥片,性能接近AMD R5 230,龙芯由此完成GPU结构设计与验证全套工作。2021年的LG110是小幅迭代,相同面积下算力翻倍,同样用于龙芯7A2000。2022年的LG120进一步提升光栅化精度,优化图形与算法,后期龙芯2K2000采用这款芯片。
LG100系列从零开始自研,不依赖境外IP,没有历史包袱。直接采用统一渲染架构,初期支持OpenGL 2.1/OpenGL ES 2.0,基本满足现代桌面应用显示需求。可靠性和兼容性经市场检验,出货规模已超百万颗。
2021年,LG100系列持续迭代时,龙芯启动第二代LG200的调研与整体设计。这次研发调整方向,从统一渲染架构转向通用计算架构,设计思路从以图形处理为中心变为以计算为中心,难度不亚于从零起步。
龙芯意识到,未来属于计算,图形处理也会以计算任务形式存在。这一转向为后续通用计算、AI处理奠定基础。经过设计、验证、迭代、磨合及配套驱动开发,2024年LG200最终完工,应用于龙芯2K3000/3B6000M,后续还有迭代版本LG210将用于这两款处理器。
LG200图形性能大幅提升,像素填充率从2GP/s提高到4GP/s,纹理填充率从2GT/s提高到8GT/s,支持OpenGL 3.3、OpenGL ES 3.1、OpenCL 1.1。作为龙芯首款GPGPU产品,900MHz频率下FP16单精度浮点性能达230.4 GFlops,INT8整数性能7.2 TOPS,频率提升至2.2-2.5GHz时,FP16浮点、INT8整数性能可分别达到256 GFlops、8 TOPS。
实际应用中,LG200能运行目标识别等AI任务、大语言模型,基于ONNX Runtime可运行YOLOv5等模型,基于Llama能运行QWEN等大语言模型。
龙芯规划了三代GPGPU产品,开启全新的9A系列,坚持GPGPU(图形+计算+AI)技术路线,面向推理类应用,从端侧做起。
2026年推出,是龙芯首款GPGPU专用芯片,用于独立显卡、AI加速卡。性能对标AMD 7年前的RX550,支持OpenGL 4.0,具备曲面细分、计算着色器等特性。集成视频处理模块,支持H.264、H.265编解码。AI推理性能在INT8整数格式下达32-40 TOPS。
2027年推出,面向桌面和服务器,GPU核升级到第三代架构。通过架构优化和规模提升,性能较9A1000提升约4倍,FP16浮点达5 TFlops,INT8整数达160 TOPS,内存带宽256GB/s。支持双硅片互联,性能可再翻一倍,达到同工艺代国际先进水平。图形API支持OpenGL4.6,张量单元支持更多数据类型,加入虚拟化支持。
暂无具体时间表,将冲击高端性能。采用Xnm工艺,频率有望大幅提升,性能较前代实现3-5倍跃升,进一步拓展龙芯在高性能计算领域的能力。
龙芯GPGPU架构设计包含多个GPC(图形处理集群),通过L1N网络互连,GPC与二级缓存通过L2N网络连接内存控制器、指令处理器等顶层模块,不同硅片可通过LCL龙链互连,扩充芯片规模和性能。
GPC内部由一条GP图形流水线、多个SP流处理器组成,每个流处理器包含一个纹理单元、多个矢量单元,每个矢量单元有16个FP16单精度浮点单元、1个FP32双精度浮点单元、1个Tensor张量单元。
生态建设上,龙芯GPGPU坚持兼容主流、拥抱开源。计算API支持OpenCL,提出兼容CUDA,支撑训练、推理、微调等全场景AI,覆盖云侧、边缘侧、端侧,图形API紧跟OpenGL、Vulkan,视频编解码加速将逐步支持更多格式。