AI Agent ,中文名「智能体」, 通俗理解就是能感知、能理解、能行动的全职助手。当前国内外知名手机厂商如苹果、荣耀都纷纷宣布将手机与AI Agent结合,致力于打造更贴合用户想法的服务体验;AI Agent的应用,将会给手机底层交互逻辑带来怎样的变革?对此你怎么看?
先来说观点,方向肯定是没错的。
过去几年里,AI经历了百模大战和开闭源之争,从技术的角度来说,已经可以满足C端用户的很多需求了。现在的问题就来到了搭载AI的设备上,或许多年以后AI会搭载在当前人们无法想象的设备上,但仅就当下而言,适合搭载的端侧设备只有两个,一个是智能手机,另一个是pc。
智能手机是比pc更适合当AI的载体的,原因不复杂:尽管高端PC拥有更强的性能,但是智能手机普及率远超PC,同时智能手机的便携性也是极大的优势——没人想在拥有一个“AI Agent”的同时还需要携带一个铁疙瘩。
另外,从手机厂商的角度,AI是一个确定性极高的增长点。很多人现在一提及智能手机,往往会想到“堆硬件”、“无新意”、“小众噱头”。在智能手机发展至今后,用户换机意愿都在下降,因为很多所谓的“新功能”,即使的确有技术含量,但用户感知不明显。智能手机行业里,亟需一个“大众的”、“创新甚至令人震惊的”、“颠覆式提升用户体验”的新元素。

而这个新元素的答案其实早已揭示,那就是“智能手机”的“智能”Agent 智能体。尽管过去智能手机可以自由安装卸载软件、通过软件拓展手机功能、芯片内存不断升级……但智能手机仍然没达到大家对于“智能”本身的幻想。
“智能”不仅是“我能用手机做什么”,还应该包括“手机能帮我做什么”。
目前来看,在手机厂商和AI行业都需要一个确定的增长点并不谋而合以后,很多手机厂商都在手机里融入了AI功能。好处是这是一个很不错的开头,科技行业仍愿意拥抱新技术并推动新技术的发展落地。但缺陷也很明显:
大部分手机的AI功能很强大也很好用,但是仍然停留在基础功能层面,比如音视频转文字生成会议纪要,或者让一张照片里的某个东西凭空消失。AI停留在基础功能,一是和第三方厂商的AI app拉不开差距,二是无法发挥出手机这一深入人们日常生活的终端的全部能力。
换句话说,就是“仍是用户用它能做”而非“能帮用户做”。
不过庆幸的是,这个问题并不难察觉,荣耀CEO赵明最近说过“只集成诸如第三方 AI 翻译之类的功能不能称为 AI 手机”。


而在前几天苹果的新品发布会期上,会发现苹果其实也是和荣耀类似的AI策略:
“强调AI之于手机,不能停留在单一应用、单一服务的表层,而是必须深入系统架构,用AI技术打通并实现全局化的能力升级。”


当然现阶段也实现不了手机突然就变成科幻作品里的类人智能管家,但是,当前无论从手机技术还是AI技术来说,迈出“人找服务变成服务找人”的第一步并不难。
一部手机如果真想做AI手机,那么我觉得在今年明年这两年里,至少要做到以下几件事:
一是AI本身的能力不能太差,对用户需求的理解准确性和输出稳定性是刚性需求。
二是本地调用,最好是处理小众特殊需要高算力的任务时可以云端辅助计算,但日常使用时,最好能在本地实现。这点不仅是出于用户隐私保护的需求,也是出于AI必须要面临并应对的政策压力。
三是个人觉得最重要的一点:AI要实现的是系统层级的调用,不仅是让AI跳出单个app的限制,还得支持用户习惯和设备环境学习,实现个性化。这点AI的深度用户应该都懂,想要让AI具有现实生产力级别的可用性,调教必不可少。但手机作为AI的端侧设备时,厂商得做好调教的预设。
四是系统内置的AI,要能操作第三方软件。手机功能的实现已经是高强度依赖第三方软件了,这是不能忽视也很难重建的地基。也是AI手机面临的难度最大的挑战。目前有两种方法,一种是应急:AI模拟人对屏幕的触摸实现操作;一种则是未来的目标:软硬件生态完善,形成统一标准,进一步融合。当然二者也可以互补。
五是跨设备体验,手机现在已经是智能家居的核心设备了,AI的“Agent”效果在这方面可以是一个不错的用户入口。
最近苹果和荣耀的都发布了AI手机。但比较可惜的是,苹果说明年AI才支持中文,而支持中文和进入大陆市场仍不一定重合,等起来遥遥无期。单看荣耀Magic 7的话,作为国内首款安卓AI智能体手机,惊喜还是很多的。


之前根据爆料,荣耀就强调端侧AI而非联网才能实现AI。目前网上有一些荣耀AI手机Magic 7可以实现的功能,能窥见这次的安卓AI智能体手机和过去的有AI功能的手机的确不同。
一个是可以一键检查扣费项目,让我惊讶的是,在这个用户自己做很简单的操作,却表现出了这款AI手机的潜力:模拟点击、隐私操作权仍还给用户,识别屏幕内容。这已经初步实现了系统内置AI对第三方应用的可用级别操控了,有人把这个操作称之为“手机界的自动驾驶”,感觉挺准确的。而且听说现在荣耀在和第三方app厂商谈,未来AI和软件的互动将会更轻松。


另一个是AI换脸反诈功能,现在通过AI换脸来进行诈骗的案例不少,而荣耀这个AI功能则很好地回答了手机系统层级的AI,可以帮用户在AI时代到来的初期做到什么。用AI来应对AI技术发展过程中的弊端,这也很科技的“螺旋上升”。


惊异于国产手机AI化第一步走得就很完整的同时,去看了一下荣耀在AI方面的技术路线,发现荣耀在AI终端上,很早就已经是头部玩家了。在今年二月,荣耀展出旗舰产品Magic6 Pro搭载的任意门功能展现了AI加持下用户使用流程的简化;三月,荣耀表示已经持续在AI上投入百亿元,并向外界阐述了自家的端侧AI逻辑;六月荣耀又推出AI离焦护眼功能,端侧AI和底层硬件融合,屏幕变身离焦镜,这种探索AI在手机细分赛道上的功能边界本身,就是对AI和手机发展的推动。对技术的不懈探索和一步一个脚印,如今让荣耀在这波手机AI化浪潮里和苹果这样的庞然大物实现了几乎同步甚至领先半个身位。


还有一点很值得关注,Apple Intelligence只作用于苹果第一方应用,并不向第三方开放。荣耀的AI Agent不仅打通了所有系统自带服务,还将向所有第三方服务开放。目前手机仍然是互联网的重要基建行业,软件生态建立在硬件生态之上,硬件厂商可以走“AI化路线”,但软件厂商中的很大一部分没这个能力。而硬件厂商的开放,对于整个手机生态尽早进入AI化都有很大的帮助,AI对用户体验的提升速度也会更明显。
作为行业首款行业首款真正意义上的智能体Al手机,荣耀Magic 7本身是有勇敢者“抢跑”意味的,抢跑不仅是提早吸引市场关注的手段,也承载了许多风险,但同时有风险但是利于时代发展的事情,总得有人去做。国内手机行业需要AI提供增长点,国内AI技术的发展也需要在手机这个设备上落地。
希望在荣耀Magic 7之后,能迎来一波国内AI手机真正的百花齐放!
一个热知识“手机厂商开发的所有新功能都需要成本,而这些成本最终都会回到消费者身上”。
所以,方向对不对,应该是用户说了算。
而作为一名普通消费者,我越发感觉到“AI功能可能没想象中那么好用”。
现在有些厂商的AI重点一股脑放在了图片与文字生成功能上。这些功能乍一看很炫酷,但在最初的新鲜感退却以后,其使用频率反倒大幅下滑。
相反,倒是那些看起来没那么炫酷的功能,比如“AI语义搜图”等,个人用得反倒会更多些。
使用频率的高低,也在一定程度上反映了用户对于某项功能的认可度。
所以,当我们在聊手机厂商all in AI的方向是否正确的时,其实是在聊AI对于用户的真正意义。
不只是我一个人,在现如今的AI应用下,愿意为之买单的消费者可能并不如想象中那么多。
根据Canalys的调查(2024年6月),在中国市场内,仅有27%的消费者愿意为AI功能而考虑换机,以AI为换机动力的因素,其排位甚至比“配套智能设备的代金券”要更低一些。


用户没那么愿意拥抱“AI”的原因,主要还是现在的AI应用还没有那么切中用户的痛点。
讲个老笑话,早年间智能机换机浪潮席卷全球的时候,曾经有厂商推出过所谓的智能冰箱——冰箱上有一个触控屏,用户可以在冰箱的屏幕上网购蔬菜或是查看推荐菜谱。
这件事好笑的地方在于,用户明明可以坐在沙发上用手机操作,但是因为购买了所谓的“智能”冰箱,反而要走到冰箱前站着去操作。
最近,甚至还有厂商推出AI冰箱——冰箱上还是带着一块屏幕,不过这次冰箱可以借助AI识别出冰箱里食材的样子,然后再给推荐具体的菜谱以及需要购买的蔬菜。
你说这是AI倒也没错,但是这最多只能算冰箱带了个AI识别功能,因为AI和冰箱本体并没有实现有机的融合,用户的体验也没有得到实质性的提升。
手机其实也一样。
现如今部分手机厂商所谓的那些AI手机,其实也只是把一些AI功能,放进了不同的app里,用户在实际使用中,仍然需要跳转到具体应用上才能使用相关AI功能,AI并没有在真正与系统融为一体。
当这种需要用户主动使用、主动发掘的被动式功能成为主流,也难怪消费者们不愿意买账。
关于AI融入系统的范例,最值得聊的两个应该是荣耀以及苹果。
前者于前不久的IFA上宣布了行业首个跨应用开放生态AI Agent将与Magic7系列同步发布,而后者刚刚发布的iPhone 16系列,也搭载了自家研发的Apple Intelligence系统(虽然中文用户要明年才能用上)。


具体来讲,苹果以封闭的iOS系统为核心,将AI全面融入图库、记事本、邮件、地图、语音助手等本地应用,带来了流畅的AI体验与安全的隐私保护。
苹果Apple Intelligence系统的核心,则分别对应着“对自然语言的理解”“图像与语言的生成”以及“接入chatGPT的Siri助手”。


同样都是生成语言,不像部分厂商只能在语音助手中操作,苹果将该功能深度整合至系统层面,无论是收发短信还是在记事本内撰写文字,苹果的Apple Intelligence都可以对其进行润色、校对或者是调整。


而在生成图片方面,苹果的Apple Intelligence也不需要用户跳转至对应app,只需要在文本框内输入描述,就可以创建相应的AI图像。


在图像与语义识别方面,苹果则将此类功能融入至通知、图库这类系统应用层面。
苹果的AI会根据事项的优先级,将应用通知进行排序,同时会提取通知中的关键信息并将其以摘要呈现,帮助用户筛选无用信息。


在图库中,依托苹果AI,用户可以使用诸如“某人在吃苹果”等自然语言来查找过去拍摄的照片,还可以自定主题,让AI根据主题寻找对应照片并智能剪辑成一段视频。


而在Siri语音助手方面,苹果将其与chatGPT相连,大幅提升了Siri的智能程度。
总的来说,苹果Apple Intelligence的最大特点,就是在系统层面上与AI的深度融合,将AI内化于各个系统应用中,同时靠着相对封闭的系统实现了流畅的操作与上乘的隐私保护。
荣耀AI的整体思路与苹果无异,都是在系统层面的重构与融合,但是在具体执行层面,比起封闭发展,荣耀则更倾向于开放共荣。
早在今年的1月荣耀公布MagicOS 8.0时,其实就提出了平台级AI与意图识别人机交互的概念。


简而言之,在MagicOS 8.0中,AI的核心目标是理解用户的真实意图,从而将被动式的“人找应用”变更为主动式的“应用找人”。
比如说,荣耀MagicOS 中的任意门功能——荣耀MagicOS会根据用户所处的情境与实际语义的不同,给出不同的应用跳转建议,而用户可以通过侧滑拖动方式,实现应用跳转的一步式操作。
举个例子,当我在聊天界面,看到朋友分享的一些好物时,而我感觉不错想要看看价格,通常的做法就是先把图片/链接保存下来,打开对应的购物app,然后再导入图片或者链接进行比价。


但在荣耀MagicOS 8.0上,我只要拖动图片/链接至侧边,手机就可以根据图片及聊天语境给出淘宝、京东等app建议,将图片拖动至对应app就能轻松完成比价操作。


而当拖动的内容变更为行程信息时,手机侧边栏上就会显示日历、地图、打车等应用,方便用户实现一键式的导航、打车等具体操作。
在“任意门”加持下,传统的多步骤手动跨应用操作,被压缩成了一键式的跨应用直达。


并且,不同于传统的藏在各个应用层面的AI,在荣耀Magic OS中,这种对于用户意图的识别是涵盖并横跨整个系统的,用户不需要跳转到具体应用,就可以享受AI带来的效率提升。
在前不久的IFA上,荣耀公布的AI Agent则更进一步展示出了其AI的自主决策与执行能力。
比如前不久姜总在微博上展示的一句话取消自动续费的功能。


当用户对手机发出诸如“关闭自动续费”的指令时,AI Agent会打开微信、支付宝等不同应用,并一步步自动操作app内相应按键,从而完成一系列的取消续费订阅的步骤。
值得一提的是,荣耀所展示的这个功能,并不是一个预先录制好步骤的“快捷指令”,而是AI大模型自动学习结果。
换言之,无论是微信支付宝更新导致的键位变化,还是有什么新的支付App支持自动续费,荣耀的AI Agent都能自动学习并更新,从而保证功能的长期可用性。
在此之外,荣耀AI Agent还带来了一句话订饮品、一句话旅行规划等多项新功能。
总之,在荣耀AI Agent下,许多封闭于每个单独应用的相关功能,都借助AI实现了操作上的“升格”——用户只需要发出指令,就有AI来替用户完成中间繁琐的步骤,最终实现了用户体验的整体提升。


上述功能的实现,离不开荣耀在AI领域的持续投入以及其开放共荣的发展理念——荣耀的AI Agent不仅可以调用系统级应用,同时也面向第三方服务开展合作,在保证隐私安全可控的前提下,荣耀AI可以将对用户的意图理解实时地与第三方应用对接,从而实现更高效、更精准地服务。
不只是荣耀和苹果,在AI盛行的一年多时间里,也有其他众多厂商登上了AI这片战场,在一片热潮之中,各家也都针对AI作出了有益的探索。
而近期的AI遇冷,问题也并不在于AI本身,而是在于AI研究的方向。
就像前面所说,用户需要为厂商开发的功能买单,也因此,厂商才更需要关注用户的体验感和获得感。
荣耀和苹果之所以能暂时站在AI应用的潮头,就是因为其为用户解决了此前使用中的某些难题。
就拿电子设备的护眼来说,荣耀就借助AI实现了电子屏幕上的护眼技术的进阶。
我们都知道,近视的本质是长期近处看物体而导致的眼轴刺激性增长。
也因此,无论是电子屏幕还是纸质书籍,长期近处观看都会导致近视的产生。
而缓解近视常用的离焦镜,则是通过专门的镜头结构设计,确保外围区域的光线折射以后,成像能在视网膜之前,从而确保减少眼轴刺激,延缓近视进展。


如果没有离焦镜,最好的办法就是经常望远,不过这对于很多忙于工作和生活的用户来说,闲暇时的望远也是一件奢侈的事情。
而荣耀则是依托于端侧AI能力以及光学仿生技术,保证了在阅读、视频等场景下,图像内容可以在视网膜前形成等效的离焦视觉效果,从而达到如同“离焦镜”以及“望远”的效果。
对于需要长时间看屏幕的用户来说,不需要繁杂的设置,也不需要频繁的调整参数,荣耀的AI已经替用户作出了最好的选择。
再比如,最近因AI而起的AI换脸诈骗。
尽管目前这些AI换脸视频制作得并不完善,尽管很多人都接受过非常完整的反诈教育,但面对这种“AI亲人”的圈套,很多用户还是会因为不可控的情感而忍不住踏进陷阱。
我们可以说这是技术发展的双刃剑,但是对于广大用户来说,比起宏大意义的叙述,其实更想看到有厂商能用技术解决这些难题。
就像荣耀前不久公布的“设备端AI换脸反诈检测技术”,就使用了AI技术去解决了AI产生的问题——荣耀的AI Agent可以检测视频图像,并对其是否为AI换脸进行判定,帮助用户识别那些虚假的伪装。


类似的技术还有很多,AI能做的,有时候也比我们想象中要更多一些。
回到最开始的话题,厂商们all in AI的方向究竟对不对?
我的答案仍然是——技术方向从来无关对错,关键要看怎么使用,无论是封闭还是开放,只要有益于用户的体验,就都是好的方向。
苹果封闭运行,用户可以享受更流畅的AI服务,这没有错;荣耀选择向第三方开放,尝试拓展更多可能的应用场景,并帮助用户解决生活中与工作中所遇到的痛点,这也是正确的道路。
不过,在现如今AI发展的阶段下,基于用户的需求,去拥抱更多的可能性或许是一条暂时更值得走的道路。
在2024年的今天,我们可以用AI帮助我们给文字材料润色、校错;也可以用语义搜索帮助我们提升信息及图片的检索效率。
但是,AI能做的应该不止这些,荣耀可以做出来一键取消订阅、AI识别换脸,那其他厂商能不能也去探索AI更多更广的边界?
当汇聚的合力足够大,AI成为贾维斯,也将不再是科幻片中的幻想。
总之,未来很远,但同样可期。
AI Agent对于人工智能的长远发展只是权宜之计,但是,对于当下的手机厂商,AI Agent的方向绝对是对的。
AI Agent不是AI Chatbot,AI Agent是真要完成实际任务,其工作是依托人工智能模型实现一个工作流,而工作流随着AI能力的提升,最后都是可以融入到大模型中去的,换句话说,大模型最终是肯定能够实现所有AI Agent的功能的,现在做AI Agent是因为大模型还不够强,所以只是权宜之计。


但是,我们这几天看到荣耀和苹果都在下注AI Agent,荣耀是旗帜鲜明地喊出了AI Agent口号,苹果虽然官方没有用AI Agent这个词宣传,但实际上Apple Intelligence就是AI Agent。
中美这两大手机厂商,分属不同阵营,对于AI Agent却如此一致,这是为何?
我们一个一个来说:
功耗
不要说大模型到完全取代AI Agent还要走很长的路,就算此时此刻GPT-100问世功能上完全可以替代任何AI Agent,手机厂商依然需要发展AI Agent,因为大模型的功耗太大了。
大模型能力越强,功耗越大,也就注定了不可能在手机这样的端侧运行特别大的模型,不然,几个AI任务做下来手机电池就耗干了,那就没法用了。
虽然现在一些大模型经过量化瘦身,也能在手机设备上运行,但瘦身后的模型是不能发挥大模型全部为例的,作为一个平衡,手机厂商的策略肯定是借助AI Agent,利用端侧一定的本地智能,但是对于需要重运算的智能,还是要云端完成。
数据隐私保护
如果说因为功耗不能再手机端跑太大的模型,那是不是干脆就所有AI智能任务都丢到云端去做呢
也不行,且不说什么都在云端计算会导致网络延迟,更因为手机是一个非常私人的设备,为了保护用户数据隐私,有一些智能最好在本地就解决,这就要求本地拥有一个AI Agent。
AI Agent就是一个代理,它接到用户指令,自己想办法最优解决,同时还要保护用户隐私。
比如Apple Intelligence的路程规划,对于用户的指令『我要去老张住的宾馆怎么走』,如果把这个指令直接传递到云端,等于也要让云端知道『老张住的宾馆』在哪里,这就是个人隐私数据泄露,Apple Intelligence的做法是在端侧根据上下文确定『老张住的宾馆』的位置B,然后定位自己的位置A,询问云端智能的问题就变成了『从A到B怎么走』,这就避免了隐私泄露,而这个分解问题的过程肯定是需要端侧的AI Agent的。
用户体验
最关键最关键的一点,就是用户体验,手机之间的竞争就是用户体验的竞争啊。
荣耀的AI Agent的一个功能点,一键取消软件扣费功能,这真是一个挺牛的AI应用创意,一下子解决了用户的一个痛点。
现在上网冲浪到处都需要付费,而且还是自动续费,如果时间长,对于不用的服务也忘了取消,那就是交冤枉钱。虽然用户可以自己查找然后手动取消,但是这肯定很麻烦,而且不用服务的退费操作还不完全一样,其实对这种事情就应该自动化,只是以前没有足够的智能去做而已,现在有了AI Agent完成多应用联动的复杂流程,这和导航自主完成A到B的流程差不多。
还有AI图片消除的功能,也是很好的提高用户体验到例子,现在哪哪都是人,尤其是旅游景区,想要拍一张只有自己或家人朋友的照片很难,总是会有路人误入镜头,这就是手机用户很大的一个痛点,当然用户可以裁剪,但是裁剪就会改变照片尺寸大小,用户也可以P图,但是不是谁都是P图高手,用AI Agent就一下子提高了用户体验。
可以想象,还有N多场景可以这样利用AI Agent自动化。
你看,无论从功耗角度,从数据隐私保护角度,还是从提高用户角度,AI Agent都是手机产商必定要下注的方向。
可以预料AI Agent会是移动业务中一个重要的爆发点,只要手机产商开放AI Agent的接口,那么会催生一个生态链的发展,也会创造很多就业机会。
如果你对AI感兴趣,不想在AI浪潮下被淘汰,我建议你试一试知乎知学堂的AI免费课程,这个课程就包含AI Agent的介绍,可以快速让你上道,教会你AI发展史,讲解现阶段的AI技术边界,更重要的还有落地的AI项目实操介绍,能彻底改进你对AI的认知,最重要的是,这课程不要钱,少刷一个小时手机,腾出来学习一门课程加强自己的AI认知绝对值得。
我听了两节试听课,觉得AI Agent落地部分特别有参考意义,就和我前面说的一样,大模型发展到取代AI Agent还早,此时此刻从落地应用角度必须重视Agent。
最后说一点有私心的感悟,这几年互联网行业不景气,就业形势不好,三天两头裁人,真是要多惨就多惨,说到底,就是缺乏行业增长点,没活干了,可不就不需要这么些人。
要重现辉煌,还得需要行业一个有潜力的增长趋势,这个趋势当然就是AI了,但是过去几年AI还只是影响业内小部分人,搞基础大模型的似乎风生水起,但是整个互联网和计算机相关行业却没有吃到多少红利。
如果AI Agent发展起来,那就会把基础大模型和实际应用连接起来,因为各行各业各个场景都不一样,都需要人去做,那必然会创造更多的工作岗位,也能重整不景气的就业市场。
希望AI Agent这波东风能给行业里的兄弟姐妹们都带来好处。
发布者:Ai探索者,转载请注明出处:https://javaforall.net/240416.html原文链接:https://javaforall.net
