您的位置:首页 > 资讯中心

AI助手“新四小龙”:下一代超级App,谁更有希望?丨鲸选横评

发布时间:2024-06-16 15:28:22      阅读量:29次     
分享: 

AI助手“新四小龙”:下一代超级App,谁更有希望?丨鲸选横评


在2023年末,豆包借助抖音流量快速崛起后,2024年中旬,腾讯的元宝再次引起市场的关注。

从文心一言、通义千问、豆包、元宝以及最近李开复的万知和王小川的百小应,目前AI助手产品已经有12款之多(后续将推出AI助手云梯榜文章,本文先做4款新品体验)。

作为“模型即产品”的典型代表,ChatGPT 60天月活过亿的神迹还在眼前,下一代媲美微信和抖音的超级App,很大可能是AI助手形态。每家大厂和独角兽,自然不会放过这一领域。

此前,文心和通义等已经被讨论很多,本文选取近期比较热门的几款AI助手,分别是MiniMax稀宇科技开发的海螺AI、百川智能的百小应、零一万物的万知AI和腾讯元宝

它们系出名门,也是刚发布不久,从产品功能实际体验角度为大家全面评测。其中产品功能会从整体设计思路讨论产品优劣,而实际体验从理解、生成、逻辑和记忆四大能力来进行。


image.png

 不同定位,AI助手的魔法不同

在国产大模型轮番卷性能卷价格的当下,想要在赛道内脱颖而出,这几款产品一定有一些独特的优势。

(1)产品功能

海螺AI是MiniMax在今年4月推出的多模态AI助手。MiniMax为众多的情感陪伴类产品提供语音大模型的帮助,而这次推出的海螺AI开放了语音实时互动功能,其功能在国内同类产品中具有特色。

它还在选项功能上设置了声音礼盒功能,我们可以克隆和分享自己的声音。

image.png

百川智能的百小应主打“懂搜索、会提问”。和市场上现有的AI搜索产品相比,其亮点在于多轮搜索和反向提问。值得一提的是,其基座大模型Baichuan4在多轮大模型评测机构评测中模型能力国内第一,多项能力超越外主流模型。

image.png

零一万物将万知AI定位为一站式AI工作平台,其核心用户是职业白领、大学生等高知群体,产品设计贴近职场用户,它在AI读文档PPT制作等高价值场景中发挥出色。

image.png

腾讯元宝是腾讯基于混元大模型研发的AI助手。元宝依托腾讯新闻平台以及微信公众号平台,优质的语料质量为元宝的AI能力提供了可靠的保证。它还支持口语陪练、个人智能体创建和AI头像生成等多种功能。

对于任何一款AIGC应用,足够好是留存用户的关键,足够好用是获取用户流量的前提。国内如此多的大模型产品,想要产品有流量,首先要做到用户友好和使用门槛低。

(2)产品支持

产品支持方面,腾讯元宝支持网页端、手机APP和小程序登录,海螺AI和百小应推出了网页版和手机版APP,万知AI只有网页和小程序版本。

首页设置上各家都比较简洁。腾讯元宝的对话首页有热点资讯板块和发现板块,用户能在热点咨询板块看到各地的热点新闻,发现板块用户可以使用不同的prompts获得不同的体验。

海螺AI的页面设计最为简洁。四个选项陈列了海螺的核心功能,用户点击任意一个,就可以进入相应的场景与海螺AI对话。其余三个应用给出了不同场景下用户提问的示例,方便用户使用。它在左上角的选项栏也设置了发现功能,该功能和元宝类似。

image.png

 不同“手感”,哪款更适合自己?

现在再来评测各家产品的模型能力。大模型的能力评测主要从大模型的理解、生成、逻辑和记忆四大能力来进行。

先测试测试它的理解能力

鲸哥喂给它们一只最近爆火网络的狗狗表情包,名叫「搞点动静狗」,看看它们是否了解。

腾讯元宝和百小应不仅从形象描述和表情包出处讲清楚了搞点动静狗是什么,还说明了这个表情包的应用场景,而万知只是简单回答了问题,没有给出相应的互联网信息。

腾讯元宝在告知数据源的基础上还推荐了来自微信公众号的相关内容,而海螺AI和百小应整合了抖音的相关内容,不过海螺AI的参考资料中却给出了无关内容,其中一个相关链接点击进去是一个用户页面,但并不包含这个表情包的内容。

image.png

再来测试一下各个产品的生成能力。首先看看AI写作的能力,给它们一个命题作文:以生命的意义在于人与人之间的相互照亮为话题,写一篇600字的抒情散文。

image.png

三个产品生成的散文质量都差不多,不过元宝在散文之中增加了故事内容,让散文看起来格外地真实和生动。

我们试试让它们在各自擅长的场景中生成内容。

海螺AI能够在识图的基础上解答题目、生成朋友圈文案。我们可以把含有题目的图片告诉海螺AI,它能够分步为我们生成步骤和答案。我们也可以发给海螺AI一张优美的照片,它也能为我们配上合适优美的朋友圈文案,甚至能为我们打上标签。

image.png

百小应的优势在于定向搜索。所谓定向搜索,就是百小应能根据用户问题精准定位用户提问的领域,通过聚焦权威站点、文章提取重点权威信息,为用户提供答案。

image.png

万知聚焦办公场景,我们可以让它生成演示文档,目前这个功能仅支持网页版。

当鲸哥要求万知生成一个向外国游客介绍北京的演示文档时,只需要输入希望生成的页码、字数、演示场景和标题等简单内容。

它会先为我们生成预览大纲,大纲的内容也非常的详实具体。

之后选择生成幻灯片选项,万知就会很快为我们生成一个完成度相当高的幻灯片。幻灯片条理非常清晰,内容也十分丰富,效果令人惊艳!

image.png

腾讯元宝能够在多场景下使用,不仅可以支持创意绘画,也支持口语、角色对话,还能生成贴图,功能相当齐全。

image.png

第三步,我们评测一下它们的逻辑能力

先设置一个简单的鸡兔同笼问题,问鸡兔同笼,共30只,脚84只,鸡兔各几只.

各家都回答的不错,再试一试曾让Claude、chatGPT等一种大模型“翻车“的数学问题,当时只有chatGPT-4能够做出来。

image.png

看起来只有百小应出现了计算错误。但总体来说,四个产品的逻辑推理能力还算不错。

最后,我们再来评测一下它们的记忆能力

鲸哥会给出一个长文本要求它们阅读,并尝试进行连续对话。这里鲸哥给出的是腾讯2024年Q1财报,让它们先为我们整理要点。

海螺AI和百小应的回答非常亮眼。它们从不同业务板块详尽而且准确地解读了腾讯的Q1业绩,海螺AI在后面问答环节的总结上有些琐碎。但相比之下,万知和腾讯元宝就逊色得多。万知虽然也总结了文档内容,但回答非常简略,没有数据支撑,而腾讯元宝没有理解文档内容,直接生成了错误答案,反而回答了一些毫不相干的内容。

如果我们接下来对文档内容进行提问,海螺AI和万知也能回答文档内容,虽然万知的回答还是相对简略。百小应这次的表现一般,它没有选择继续根据文档内容回答我们的问题,而是联网整合了关于腾讯AI方面的资料做出回答。

这个测试中,海螺AI的表现最为突出。它不仅能总结文档内容,而且多轮连续对话的能力也非常优秀。它还会在每次回答之后联想相关问题,用户在选择后,海螺AI会联网生成相应的答案。

image.png

多轮对话能力的测试,不得不提的就是海螺AI的语音实时互动百小应的反向提问功能。

海螺的AI语音功能不仅仅局限于语音通话,它还支持多种的应用场景,如教育、娱乐、电商直播。只需要点击“和我语音通话”选项,就可以开始对话。

海螺AI还支持更换声音,进入页面就能听到海螺AI“你的专属语音伙伴,想练口语、背单词、模拟面试、或者聊聊此刻的心情。一键和我语音通话”的语音。体验下来,海螺AI的音色比较稳定柔和,每段对话大致需要2-3秒的时间回答,响应时间也不算太长。

image.png

百小应的反向提问值得关注。有时候用户的提问比较模糊,而百小应会引导用户生成更加准确的信息,之后进行第二次搜索。

image.png

从上面的几轮测试中我们不难看出各家产品各有优劣。海螺AI的表现相对均衡,语音互动令人印象深刻;百小应在搜索上优势突出,万知在高效办公场景下实力不俗,但两者都缺乏其他的一些应用场景,在核心优势上也有不尽人意的地方;腾讯元宝应用场景广泛,在内容生态上领先不少产品,但也会出现长文本阅读生成错误的问题。

但就用户体验来说,四家相差不多,在杀手级的AI应用到来之前,这样的情况或许还要持续很久。