您的位置:首页 > 资讯中心

文生图大模型基准测评首期榜单公布,DALL-E 3取得最高76.94分

发布时间:2024-06-17 11:28:56      阅读量:150次     
分享: 

文生图技术已在人工智能领域取得重要进展,使计算机能够依据文本描述生成图像。特别是在中文场景中,此技术不仅改变了内容创作方式,还在广告和营销、设计和创意、艺术和娱乐等行业大展拳脚。中文的复杂性给技术的发展带来了挑战。
目前,国际上如DALL-E 3、Imagen2、Midjourney和Stable Diffusion等模型展示了出色的图像生成能力。尽管国内模型如百度文心一言已在中文文生图领域做出尝试,但理解和生成具有中文文化特色的复杂图像依然具有挑战。
为此,我们推出了SuperCLUE-Image中文原生文生图测评基准。它专为中文设计,提供全面公正的评估框架,覆盖生成质量、多样性和文本一致性等方面的表现,以推动技术的标准化和国际化,加速其在更多实际应用场景的应用。

SuperCLUE排行榜网站:www.superclueai.com

测评结果

总成绩榜单

image.png

任务大类榜单

image.png

图像质量榜单

image.png

图文一致性榜单

image.png

内容创造榜单

image.png

图片复杂度榜单

image.png

测评分析

1. 模型总体能力分析
在中文文生图总体能力上,国内外模型有一定差距。DALL·E 3以76.94的高分较为领先,是唯一得分超70分以的文生图模型;紧随其后的是百度的文心一格与vivo的BlueLM-Art,取得国内最好成绩;另外,智谱AI的Cogview3、字节跳动的豆包和昆仑万维的天工AI表现同样不俗,均有65分以上的表现。
2. 各任务得分分析
DALL·E 3在各项指标上均有优异表现,特别是在图片质量、效率和内容创造方面展现出很强的竞争力。文心一格和 BlueLM-Art(vivo)在国内模型中表现也较为出色,但在图文一致性方面有提升空间。其余模型在图文一致性与内容创作的能力均有很大的改进空间。
1)图像质量分析


image.png

在SC-Image图像质量测评中,DALL·E 3在光影、锐度、细节处理上展现出很高的图像生成水准。文心一格在构图、饱和度任务上表现不俗,BLueLM-Art在分辨率、细节处理和色彩准确性上同样展现出较高的能力。

2)图文一致性分析
image.png

在SC-Image图文一致性测评中,国内外模型均得分不高。相对来说,DALL·E 3在因果连贯性、时序连贯性、语境理解上较为领先。CogView3在歧义理解、文本遵循、因果和时序连贯性上同样展现了很高的水准。而BLueLM-Art在语境理解和中文场景的一致性上得分较高,表现不俗。

3)内容创造能力分析

image.png

在SC-Image内容创造测评中,DALL·E 3展现较大的领先优势,CogView3在风格创造上展现了很高的水准,而文心一格在组合元素创造性上表现不俗。

4)复杂度适应性分析
image.png

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE-Image