文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

您的位置：首页 > 资讯中心

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

发布时间：2024-06-17 11:28:56 阅读量：159次

文生图技术已在人工智能领域取得重要进展，使计算机能够依据文本描述生成图像。特别是在中文场景中，此技术不仅改变了内容创作方式，还在广告和营销、设计和创意、艺术和娱乐等行业大展拳脚。中文的复杂性给技术的发展带来了挑战。

目前，国际上如DALL-E 3、Imagen2、Midjourney和Stable Diffusion等模型展示了出色的图像生成能力。尽管国内模型如百度文心一言已在中文文生图领域做出尝试，但理解和生成具有中文文化特色的复杂图像依然具有挑战。

为此，我们推出了SuperCLUE-Image中文原生文生图测评基准。它专为中文设计，提供全面公正的评估框架，覆盖生成质量、多样性和文本一致性等方面的表现，以推动技术的标准化和国际化，加速其在更多实际应用场景的应用。

SuperCLUE排行榜网站：www.superclueai.com

# 测评结果

总成绩榜单

任务大类榜单

图像质量榜单

图文一致性榜单

内容创造榜单

图片复杂度榜单

# 测评分析

1. 模型总体能力分析

在中文文生图总体能力上，国内外模型有一定差距。DALL·E 3以76.94的高分较为领先，是唯一得分超70分以的文生图模型；紧随其后的是百度的文心一格与vivo的BlueLM-Art，取得国内最好成绩；另外，智谱AI的Cogview3、字节跳动的豆包和昆仑万维的天工AI表现同样不俗，均有65分以上的表现。

2. 各任务得分分析

DALL·E 3在各项指标上均有优异表现，特别是在图片质量、效率和内容创造方面展现出很强的竞争力。文心一格和 BlueLM-Art（vivo）在国内模型中表现也较为出色，但在图文一致性方面有提升空间。其余模型在图文一致性与内容创作的能力均有很大的改进空间。

1）图像质量分析