智谱宣布联合华为开源新一代图像生成模型 GLM-Image,模型基于昇腾 Atlas 800T A2 设备和昇思 MindSpore AI 框架完成从数据到训练的全流程,是首个在国产芯片上完成全程训练的 SOTA 多模态模型。
根据介绍,GLM-Image 采用自主创新的「自回归 + 扩散解码器」混合架构,实现了图像生成与语言模型的联合,是我们面向以 Nano Banana Pro 为代表的新一代「认知型生成」技术范式的一次重要探索。
核心亮点如下:
架构革新,面向「认知型生成」的技术探索:采用创新的「自回归 + 扩散编码器」混合架构,兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景生成难题,向探索以 Nano Banana Pro 为代表的新一代 “知识 + 推理” 的认知型生成模型迈出了重要一步。
首个在国产芯片完成全程训练的 SOTA 模型:模型自回归结构基座基于昇腾 Atlas 800T A2 设备与昇思 MindSpore AI 框架,完成了从数据预处理到大规模训练的全流程构建,验证了在国产全栈算力底座上训练前沿模型的可行性。
文字渲染开源 SOTA:在 CVTG-2K(复杂视觉文本生成)和 LongText-Bench(长文本渲染)榜单获得开源第一,尤其擅长汉字生成任务。
高性价比与速度优化:API 调用模式下,生成一张图片仅需 0.1 元,速度优化版本即将更新。

评测结果显示,GLM-Image 在文字渲染的权威榜单中达到开源 SOTA 水平。

CVTG-2K(复杂视觉文字生成)榜单核心考察模型在图像中同时生成多处文字的准确性。在多区域文字生成准确率上,GLM-Image 凭借 0.9116 的 Word Accuracy(文字准确率)成绩,位列开源模型第一。在 NED(归一化编辑距离)指标上,GLM-Image 同样以 0.9557 领先,表明其生成的文字与目标文字高度一致,错字、漏字情况更少。
LongText-Bench(长文本渲染)榜单考察模型渲染长文本、多行文字的准确性,覆盖招牌、海报、PPT、对话框等 8 种文字密集场景,并分设中英双语测试,GLM-Image 以英文 0.952、中文 0.979 的成绩位列开源模型第一。