您的位置：首页 > 资讯中心

打通APP墙，才是苹果AI首秀的最大创举！

发布时间：2024-06-15 15:17:44 阅读量：46次

打通APP墙，才是苹果AI首秀的最大创举！

“缺乏新意”，是主流声音对苹果AI首秀的评价，苹果股价也跌了2%。

一切原因这场发布会。今天凌晨，在WWDC24大会上，iOS18正式发布，苹果智能助手Siri不仅迎来了史诗级进化，首次加入了生成式AI功能，不仅能免费调用ChatGPT了，还能关联GPT-4o。

目前所有最新的AI功能，例如文档总结、图片生成，以及更智能的语音交互，以及跨应用进行AI操作等等，iOS上都应有尽有了。

但大家期待的是苹果能够带来OpenAI级别的成果，而不是一些交互创新。

可是苹果选择的是合作。在iPhone手机植入了GPT-4o的iOS，在跨应用方面的能力，可以说，正是这一能力的出现，使得原先手机上的各大APP形成的信息壁垒，彻底不存在了，这一意义很多人并没有深刻认知。

至此以后，用户无论是写邮件，还是回复短消息，都能通过一个简单的AI指令一气呵成。

例如，要是想把某张照片，添加到备忘录里，只需对Srir说出相应的指令，所有的操作就能直接一步到位地完成，而无需在相册、备忘录之间切换。

更重要的是，在进行跨应用操作时，苹果AI还能“因时制宜”，通过感知屏幕显示内容，理解不同情境，进行针对性操作。

例如，在消息多得看不过来时，AI就会根据消息内容，优先将最重要、最紧急的那条排在前面。

凡此种种，大极大地提升了iOS将来的智能性。

而至于本次大会的其他内容，鉴于相关的文章已经在铺天盖地地报道，在此便不再赘述。

今天我们想重点聊的是，为何对于现阶段的大模型来说，与苹果的结合，是打破自身局限性，并解决交互痛点的关键。

手机交互层面的两大痛点

自从2023年年初，生成式AI的浪潮兴起以来，各路大模型，都始终存在着两个看似不起眼，但实则很影响体验的痛点。

而第一个痛点，正是目前大模型的交互方式。

因为当前大部分的大模型用户，仍在用一种颇为低效的方式，在与大模型进行交互——敲击键盘，逐字逐字地打出相应的提示词。

这种交互方式，有时候真的很反人性，很不流畅。

记得在某个周五的下午，我忙完了一天的工作，躺在椅子上，想和某个大模型探讨下一个存疑已久的问题。

然而，打开了页面许久，我却迟迟没有敲下一个字，原因是那天我太累了，而要问的那个问题又有点复杂，这势必免不了要打一长串提示词。

在PC端，用户往往只能通过打字与模型交流。

在大模型的用户，或者说潜在用户中，有多少人是被类似的原因给劝退了呢？

诚然，目前的某些大模型，虽然也在其APP上开放了语音功能，并且用户自己也可以通过语音输入法来弥补这一痛点。但直到iOS结合ChatGPT-4o才真正解决这一痛点，Siri能识别情绪，连续对话，执行任务。

特别受女性用户青睐的一项新功能，Siri现在能够直接控制iPhone进行图片编辑，简化了图片处理流程。

另外，目前手机系统存在的一大问题，在于由于当前较为单一的交互形式，当用户试图将模型的能力应用在不同的软件、场景时，用户只能每次都很辛苦地在不同软件间切换，并将大量的内容，一步步地转化成输入框里的信息（文字、图片），才能与之进行交互。

不同App之间信息不流通，此为大模型当前的第二大痛点。

例如，在你在淘宝上看到了个想买的东西，拿不准要不要买，想请AI来判断下，这时你就得把整个网页的内容、描述，以及相应的商品截图全都辛苦地保存下来，再一步步上传给模型看。

这样的体验实在复杂，且不通人性。

正是由于上述痛点的存在，当前的大模型，只能成为一种在正式的工作场合才会被经常用到，且主要服务于部分高知群体的技术。

据Quest Mobile报告，在中国12.32亿互联网用户中，只有数百万活跃在AI头部产品上。研究同样显示，只有约50%的受访者听说过ChatGPT等AI工具，而每天使用这些工具的人更是寥寥无几。

这样的情况，全世界都好不到哪去，日本仅有1%，美国稍多一些，有7%。

牛津大学和路透社的一项新研究，对六个国家的约 12,000 人进行了有关人工智能的调查，结果20% 至 30% 的受访者表示他们从未听说过 ChatGPT 或 Copilot 这些AI工具。

那么，苹果的这次AI大更新，究竟将怎样解决这一痛点呢？

AI手机带来的第二次交互革命

从这次发布会的内容来看，新版的Siri，由于融入了GPT-4o的能力，在进行语音交互时，直戳到了上述的痛点。

1、能够理解模糊指令和上下文；

2、主动理解不同应用的情境。

这就意味着，首先，用户在进行语音交互时，有时不必把话说得特别“明白”，或者有时对话稍微停顿了一下，AI也能理解相应的内容。

例如，倘若用户之前查询了某地的天气情况，即使之后中断了片刻，之后再次进行交互时，只需提及一个较为模糊的“那里”，AI就能知道此处的“那里”正是刚才提到的地点。

这就意味着，此后用户只需用很少的输出，就能得到准确的结果。

而这样的输出—结果交换比，是在网页端通过打字进行交互的大模型，很难带来的一种体验。

此外，除了交互更省事之外，要想让模型更通人性，更准确理解不同的情境，换句话说，就是AI得知我现在用APP在干嘛。

而这一点，考验的正是AI在系统层面的跨应用能力。

像是将证件上的号码填进表格这种操作，就是一个十分考验跨应用能力和情境理解的例子。

过去，要完成这样的操作，首先得打开相册，找到相应的证件照，扫描好相应的文字，再打开备忘录，把扫描好的内容复制进去，最后再打开要填写表格的APP，一条条将信息填写进去，

每填写一栏，就要切一次APP，过程十分繁琐。

要是换成了AI来干这事，通过识别特定的屏幕内容，AI就能知道这是一个需要填写表格的页面，于是就会自动地提取证件上的号码，准确地填到相应的栏位。

这样的操作，给用户体验上的提升实在太大了。

一个搞笑视频显示，你利用Sri定时了明早7点的闹钟，他看了你的备忘录，你要晨练，要咖啡，要读书，于是建议你定在更早的4点半。而当你前一天晚10点还在玩手机，他会提醒你该休息了，“根据你的计划，你明早还要晨练。”

能管你别刷短视频的AI手机，有没有很有趣？

在此之前，很多人一直质疑，手机AI存在的意义和必要性是什么。毕竟，现在的很多大模型，都推出了各自的手机APP。

如果需求能在大模型APP上完成，何必将AI整合进系统里？

而这种跨应用的繁琐操作，则恰恰印证了一个系统级别的AI的意义。因为唯有一个根植于系统中的AI，才能无缝地进行不同APP的协同操作。

总结下就是，这种高度优化的输出—结果交换比，以跨应用的便捷交互体验，正是将来的大模型进一步“破圈”、落地的关键。

必要的“错位” ，苹果仍处最佳位置

发布会之前，很多人都说，苹果这次的AI即使再怎么牛逼，本质上还是要靠OpenAI的技术，既然最关键的AI技术都要受制于人了，就算能力再强，又有什么值得吹的？

但实际上，放眼整个行业来看，这种特殊的“错位”，其实某种程度上，是技术和时代发展的必然性所致。

这种必然性就是：原先主要搞硬件，做手机的厂商，遇到新的生成式AI，目前没一个真正做得好的。这主要是其业务方向和商业模式所致。

即使目前某些国产大模型推出了自研大模型，但就其生成效果来看，与云端大模型相比，实在不忍直视。

对于这些传统手机厂商来说，在此前很长一段时间里，真正能对其产品进行赋能的，是某些专用性较强的传统AI，如摄影、面部识别之类的AI等等。

而专注于模型研发的AI企业，例如OpenAI，本质上定位更接近于一个软件开发公司，本身并不具备硬件的载体。

于是，这种一方缺模型，一方缺硬件的错位现象，就造成了一种特殊的“真空地带”。这种“真空地带”就是：专注于云端大模型的AI公司，很少会针对AI交互进行优化，而有AI交互需求的手机厂商，又难以推出性能足够强大的模型。

于是，在很长的一段时间，用户只能忍受十分低效的交互方式——在键盘上一个一个字地敲出相应的提示词。

并且由于模型交互形式的局限性，这种发生在网页端的交互，往往很难实现跨应用的协同。

因此就现阶段来说，掌握了云端大模型技术的AI企业，与手机厂商进行联合，对用户而言，是一种技术上的最优解。

而国内的手机厂商，将来要在手机AI方面有大的进展，大概率也只能走这条路，但都基于安卓的底层，谁也无法真正系统级融合AI。

毕竟，从术业有专攻的角度来说，专业的AI企业，无疑有着更成熟和先进的模型架构，并且就使用场景而言，真正具有很强的“即时性”，必须直接依靠端侧模型来完成的操作，也并不是那么的广泛。

在这种情况下，性能更强大的云端模型，无疑更容易得到用户的欢迎。

从长远来看，即使这次苹果在AI上的更新，未能像预期的那样引发新一轮的换机潮，但用户毕竟看到了一种更人性化，更舒适的AI交互体验。

在这样的体验下，用户是否还愿意回头忍受目前手机UI迟缓的交互方式？

如果不愿，这或许会倒逼着目前的AI企业，在交互方式上引发一轮新的革命，而这或许正是AI逐渐破圈的开始。