龙芯GPGPU的进阶之路：从自主配套到三代产品布局

发布在GPU

龙芯举办的发布会上，除推出龙芯3C6000系列服务器处理器、龙芯2K3000/3B6000M工控与终端处理器外，首次披露了GPU图形核心领域的未来多代技术和产品规划。这条从解决配套难题起步的自主研发之路，正逐步勾勒出清晰的技术进阶轨迹。

龙芯主业是CPU通用处理器，启动GPU项目最初想法简单，就是解决与龙芯CPU的配套问题。当时进口低端GPU芯片供货不稳定，嵌入式GPU不适合桌面场景，拥有自主CPU和GPU，才能形成自我配套的系统优势，降低系统成本。

2016年，龙芯GPU项目立项，比许多人预想的早。此后几年，研发按部就班推进：2017年开展图形算法调研，2018年进行总体架构设计，同时启动结构模拟器设计，2019年完成模拟器验证，转入逻辑与结构设计阶段。

2020年，首款GPU LG100诞生，应用于龙芯2K2000处理器、龙芯7A2000桥片，性能接近AMD R5 230，龙芯由此完成GPU结构设计与验证全套工作。2021年的LG110是小幅迭代，相同面积下算力翻倍，同样用于龙芯7A2000。2022年的LG120进一步提升光栅化精度，优化图形与算法，后期龙芯2K2000采用这款芯片。

LG100系列从零开始自研，不依赖境外IP，没有历史包袱。直接采用统一渲染架构，初期支持OpenGL 2.1/OpenGL ES 2.0，基本满足现代桌面应用显示需求。可靠性和兼容性经市场检验，出货规模已超百万颗。

突破：从图形到通用计算的转向

2021年，LG100系列持续迭代时，龙芯启动第二代LG200的调研与整体设计。这次研发调整方向，从统一渲染架构转向通用计算架构，设计思路从以图形处理为中心变为以计算为中心，难度不亚于从零起步。

龙芯意识到，未来属于计算，图形处理也会以计算任务形式存在。这一转向为后续通用计算、AI处理奠定基础。经过设计、验证、迭代、磨合及配套驱动开发，2024年LG200最终完工，应用于龙芯2K3000/3B6000M，后续还有迭代版本LG210将用于这两款处理器。

LG200图形性能大幅提升，像素填充率从2GP/s提高到4GP/s，纹理填充率从2GT/s提高到8GT/s，支持OpenGL 3.3、OpenGL ES 3.1、OpenCL 1.1。作为龙芯首款GPGPU产品，900MHz频率下FP16单精度浮点性能达230.4 GFlops，INT8整数性能7.2 TOPS，频率提升至2.2-2.5GHz时，FP16浮点、INT8整数性能可分别达到256 GFlops、8 TOPS。

实际应用中，LG200能运行目标识别等AI任务、大语言模型，基于ONNX Runtime可运行YOLOv5等模型，基于Llama能运行QWEN等大语言模型。

未来：三代GPGPU的技术蓝图

龙芯规划了三代GPGPU产品，开启全新的9A系列，坚持GPGPU（图形+计算+AI）技术路线，面向推理类应用，从端侧做起。

9A1000：低成本入门级产品

2026年推出，是龙芯首款GPGPU专用芯片，用于独立显卡、AI加速卡。性能对标AMD 7年前的RX550，支持OpenGL 4.0，具备曲面细分、计算着色器等特性。集成视频处理模块，支持H.264、H.265编解码。AI推理性能在INT8整数格式下达32-40 TOPS。

9A2000：中高端主流产品

2027年推出，面向桌面和服务器，GPU核升级到第三代架构。通过架构优化和规模提升，性能较9A1000提升约4倍，FP16浮点达5 TFlops，INT8整数达160 TOPS，内存带宽256GB/s。支持双硅片互联，性能可再翻一倍，达到同工艺代国际先进水平。图形API支持OpenGL4.6，张量单元支持更多数据类型，加入虚拟化支持。