“缺乏新意”,是主流声音对苹果AI首秀的评价,苹果股价也跌了2%。
一切原因这场发布会。今天凌晨,在WWDC24大会上,iOS18正式发布,苹果智能助手Siri不仅迎来了史诗级进化,首次加入了生成式AI功能,不仅能免费调用ChatGPT了,还能关联GPT-4o。

目前所有最新的AI功能,例如文档总结、图片生成,以及更智能的语音交互,以及跨应用进行AI操作等等,iOS上都应有尽有了。

但大家期待的是苹果能够带来OpenAI级别的成果,而不是一些交互创新。
可是苹果选择的是合作。在iPhone手机植入了GPT-4o的iOS,在跨应用方面的能力,可以说,正是这一能力的出现,使得原先手机上的各大APP形成的信息壁垒,彻底不存在了,这一意义很多人并没有深刻认知。

至此以后,用户无论是写邮件,还是回复短消息,都能通过一个简单的AI指令一气呵成。
例如,要是想把某张照片,添加到备忘录里,只需对Srir说出相应的指令,所有的操作就能直接一步到位地完成,而无需在相册、备忘录之间切换。

更重要的是,在进行跨应用操作时,苹果AI还能“因时制宜”,通过感知屏幕显示内容,理解不同情境,进行针对性操作。
例如,在消息多得看不过来时,AI就会根据消息内容,优先将最重要、最紧急的那条排在前面。

凡此种种,大极大地提升了iOS将来的智能性。
而至于本次大会的其他内容,鉴于相关的文章已经在铺天盖地地报道,在此便不再赘述。
今天我们想重点聊的是,为何对于现阶段的大模型来说,与苹果的结合,是打破自身局限性,并解决交互痛点的关键。
自从2023年年初,生成式AI的浪潮兴起以来,各路大模型,都始终存在着两个看似不起眼,但实则很影响体验的痛点。
而第一个痛点,正是目前大模型的交互方式。
因为当前大部分的大模型用户,仍在用一种颇为低效的方式,在与大模型进行交互——敲击键盘,逐字逐字地打出相应的提示词。
这种交互方式,有时候真的很反人性,很不流畅。
记得在某个周五的下午,我忙完了一天的工作,躺在椅子上,想和某个大模型探讨下一个存疑已久的问题。
然而,打开了页面许久,我却迟迟没有敲下一个字,原因是那天我太累了,而要问的那个问题又有点复杂,这势必免不了要打一长串提示词。

在PC端,用户往往只能通过打字与模型交流。
在大模型的用户,或者说潜在用户中,有多少人是被类似的原因给劝退了呢?
诚然,目前的某些大模型,虽然也在其APP上开放了语音功能,并且用户自己也可以通过语音输入法来弥补这一痛点。但直到iOS结合ChatGPT-4o才真正解决这一痛点,Siri能识别情绪,连续对话,执行任务。
特别受女性用户青睐的一项新功能,Siri现在能够直接控制iPhone进行图片编辑,简化了图片处理流程。
另外,目前手机系统存在的一大问题,在于由于当前较为单一的交互形式,当用户试图将模型的能力应用在不同的软件、场景时,用户只能每次都很辛苦地在不同软件间切换,并将大量的内容,一步步地转化成输入框里的信息(文字、图片),才能与之进行交互。
不同App之间信息不流通,此为大模型当前的第二大痛点。
例如,在你在淘宝上看到了个想买的东西,拿不准要不要买,想请AI来判断下,这时你就得把整个网页的内容、描述,以及相应的商品截图全都辛苦地保存下来,再一步步上传给模型看。
这样的体验实在复杂,且不通人性。
正是由于上述痛点的存在,当前的大模型,只能成为一种在正式的工作场合才会被经常用到,且主要服务于部分高知群体的技术。
据Quest Mobile报告,在中国12.32亿互联网用户中,只有数百万活跃在AI头部产品上。研究同样显示,只有约50%的受访者听说过ChatGPT等AI工具,而每天使用这些工具的人更是寥寥无几。

这样的情况,全世界都好不到哪去,日本仅有1%,美国稍多一些,有7%。
牛津大学和路透社的一项新研究,对六个国家的约 12,000 人进行了有关人工智能的调查,结果20% 至 30% 的受访者表示他们从未听说过 ChatGPT 或 Copilot 这些AI工具。
那么,苹果的这次AI大更新,究竟将怎样解决这一痛点呢?
从这次发布会的内容来看,新版的Siri,由于融入了GPT-4o的能力,在进行语音交互时,直戳到了上述的痛点。
1、能够理解模糊指令和上下文;
2、主动理解不同应用的情境。
这就意味着,首先,用户在进行语音交互时,有时不必把话说得特别“明白”,或者有时对话稍微停顿了一下,AI也能理解相应的内容。
例如,倘若用户之前查询了某地的天气情况,即使之后中断了片刻,之后再次进行交互时,只需提及一个较为模糊的“那里”,AI就能知道此处的“那里”正是刚才提到的地点。




总结下就是,这种高度优化的输出—结果交换比,以跨应用的便捷交互体验,正是将来的大模型进一步“破圈”、落地的关键。


