文生图技术已在人工智能领域取得重要进展,使计算机能够依据文本描述生成图像。特别是在中文场景中,此技术不仅改变了内容创作方式,还在广告和营销、设计和创意、艺术和娱乐等行业大展拳脚。中文的复杂性给技术的发展带来了挑战。目前,国际上如DALL-E 3、Imagen2、Midjourney和Stable Diffusion等模型展示了出色的图像生成能力。尽管国内模型如百度文心一言已在中文文生图领域做出尝试,但理解和生成具有中文文化特色的复杂图像依然具有挑战。为此,我们推出了SuperCLUE-Image中文原生文生图测评基准。它专为中文设计,提供全面公正的评估框架,覆盖生成质量、多样性和文本一致性等方面的表现,以推动技术的标准化和国际化,加速其在更多实际应用场景的应用。SuperCLUE排行榜网站:www.superclueai.com

# 测评结果
总成绩榜单
任务大类榜单

图像质量榜单

图文一致性榜单

内容创造榜单

图片复杂度榜单
# 测评分析
在中文文生图总体能力上,国内外模型有一定差距。DALL·E 3以76.94的高分较为领先,是唯一得分超70分以的文生图模型;紧随其后的是百度的文心一格与vivo的BlueLM-Art,取得国内最好成绩;另外,智谱AI的Cogview3、字节跳动的豆包和昆仑万维的天工AI表现同样不俗,均有65分以上的表现。DALL·E 3在各项指标上均有优异表现,特别是在图片质量、效率和内容创造方面展现出很强的竞争力。文心一格和 BlueLM-Art(vivo)在国内模型中表现也较为出色,但在图文一致性方面有提升空间。其余模型在图文一致性与内容创作的能力均有很大的改进空间。
在SC-Image图像质量测评中,DALL·E 3在光影、锐度、细节处理上展现出很高的图像生成水准。文心一格在构图、饱和度任务上表现不俗,BLueLM-Art在分辨率、细节处理和色彩准确性上同样展现出较高的能力。
在SC-Image图文一致性测评中,国内外模型均得分不高。相对来说,DALL·E 3在因果连贯性、时序连贯性、语境理解上较为领先。CogView3在歧义理解、文本遵循、因果和时序连贯性上同样展现了很高的水准。而BLueLM-Art在语境理解和中文场景的一致性上得分较高,表现不俗。

在SC-Image内容创造测评中,DALL·E 3展现较大的领先优势,CogView3在风格创造上展现了很高的水准,而文心一格在组合元素创造性上表现不俗。
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE-Image