今天听播客的时候了解到两个概念,是关于 AI 设备的,特别是可穿戴这一块,有点启发便记录下来。
我们讨论可穿戴到底在讨论什么
很多人讨论 AI 手机、AI 眼镜、AI Pin 时,容易把问题简化成:
- 设备里有没有大模型
- 是不是本地跑 AI
- 能不能替用户点 APP
- 是不是加了一个 AI 助手
但真正的变化不在于“手机里多了一个 AI 功能”,而在于两个更底层的迁移,也就是:
- 端云结合
- AI 原生
什么是端云结合
端侧设备,比如手机、眼镜,有天然的限制,算力、电池、内存、散热等,如果把 AI 能力都放在设备本地,体验会受限很多。但是,如果把所有能力都放到云端,也会有很多问题,网络延迟、实时性、用户隐私等。所以这里引入了端云结合的概念,即「端侧负责靠近用户,云侧负责扩展智能」。
具体来说,端侧适合做那些“近身、实时、隐私、低功耗”的任务:唤醒词检测、语音前处理、本地数据检索、离线场景下的兜底能力。云侧则反过来:跑大模型、多轮规划、长上下文、多模态、RAG 检索、知识更新、多 API 编排等。今年 WWDC 就是聊的这些。
但这里面其实不容易做,不是简单的“本地跑一点、云端跑一点”。什么时候在端侧做、什么时候上云、失败了怎么降级、数据怎么保护、体验怎么保持一致等等,每一件拧出来都有难度,这也是为什么 Apple Intelligence 一直差强人意,国行就更别提了。
从传统 APP 到 AI 原生
我们再回过来看我们的手机 APP,基本是的操作流是这样的:
用户 → APP → 页面 → 按钮 → 服务
这条链路是“给人操作”的,所以 APP 设计有一个假设,即人知道自己要打开哪个应用,也知道该点哪里。该假设在简单任务里成立,复杂任务就低效。
所以做 AI 设备需要换个思路,要从「以人为本」切到「AI 原生」,即:
用户目标 → AI Agent → 工具 / API / 服务 → 结果
用户的定位也变了,不再表达“我要点哪里”,而是说“我想要什么”。对比一下就知道:传统 APP 给人看,所以是界面优先;而 AI 原生是给 Agent 调,所以要能力优先。而这意味着服务商必须把能力开放成可调用的接口,而不是藏在一堆点击路径后面。
眼镜、耳机、车机、机器人、智能家居,这些天然就不适合复杂点击。它们共同的需要是语音、视觉、上下文、API 调用,这些几乎只能在 AI 原生范式下才能玩的起来。
所以要理解 AI 手机/设备,要走出“手机里装了个 AI APP”或者"APP 里加了问答助手”这种思维,而是从一开始,应用的交互、数据流、任务流、权限模型就是为 AI Agent 设计的。流程大概像这样:
用户表达目标
↓
AI 理解上下文
↓
调用本地模型 / 本地数据 / 传感器
↓
必要时调用云端大模型或 API
↓
执行任务
↓
用户确认关键动作
↓
结果反馈和持续记忆
拿这个框架去看豆包手机,它更像是在旧 APP 世界里训练一个会点屏幕的 AI,通过读屏和模拟点击来替人操作。这种方式注定要迁就原有 APP 的 GUI 假设,效率上限也显而易见。
真正的 AI 原生,应该反过来,重建一个让 AI 直接调用能力的新世界:系统和服务从一开始就为 Agent 调用而设计,通过标准化的 API、Intent 和权限体系让 AI 直接完成任务。模拟点击只是过渡,不是终点。