可穿戴设备的两点启发

作者 Leehyon HNG | 1197 字, 3 分钟 | 0 评论 | 2026-06-11 | 栏目 notes

ai, edge-ai, view

今天听播客的时候了解到两个概念,是关于 AI 设备的,特别是可穿戴这一块,有点启发便记录下来。

我们讨论可穿戴到底在讨论什么

很多人讨论 AI 手机、AI 眼镜、AI Pin 时,容易把问题简化成:

  • 设备里有没有大模型
  • 是不是本地跑 AI
  • 能不能替用户点 APP
  • 是不是加了一个 AI 助手

但真正的变化不在于“手机里多了一个 AI 功能”,而在于两个更底层的迁移,也就是:

  • 端云结合
  • AI 原生

什么是端云结合

端侧设备,比如手机、眼镜,有天然的限制,算力、电池、内存、散热等,如果把 AI 能力都放在设备本地,体验会受限很多。但是,如果把所有能力都放到云端,也会有很多问题,网络延迟、实时性、用户隐私等。所以这里引入了端云结合的概念,即「端侧负责靠近用户,云侧负责扩展智能」。

具体来说,端侧适合做那些“近身、实时、隐私、低功耗”的任务:唤醒词检测、语音前处理、本地数据检索、离线场景下的兜底能力。云侧则反过来:跑大模型、多轮规划、长上下文、多模态、RAG 检索、知识更新、多 API 编排等。今年 WWDC 就是聊的这些。

但这里面其实不容易做,不是简单的“本地跑一点、云端跑一点”。什么时候在端侧做、什么时候上云、失败了怎么降级、数据怎么保护、体验怎么保持一致等等,每一件拧出来都有难度,这也是为什么 Apple Intelligence 一直差强人意,国行就更别提了。

从传统 APP 到 AI 原生

我们再回过来看我们的手机 APP,基本是的操作流是这样的:

用户 → APP → 页面 → 按钮 → 服务

这条链路是“给人操作”的,所以 APP 设计有一个假设,即人知道自己要打开哪个应用,也知道该点哪里。该假设在简单任务里成立,复杂任务就低效。

所以做 AI 设备需要换个思路,要从「以人为本」切到「AI 原生」,即:

用户目标 → AI Agent → 工具 / API / 服务 → 结果

用户的定位也变了,不再表达“我要点哪里”,而是说“我想要什么”。对比一下就知道:传统 APP 给人看,所以是界面优先;而 AI 原生是给 Agent 调,所以要能力优先。而这意味着服务商必须把能力开放成可调用的接口,而不是藏在一堆点击路径后面。

眼镜、耳机、车机、机器人、智能家居,这些天然就不适合复杂点击。它们共同的需要是语音、视觉、上下文、API 调用,这些几乎只能在 AI 原生范式下才能玩的起来。

所以要理解 AI 手机/设备,要走出“手机里装了个 AI APP”或者"APP 里加了问答助手”这种思维,而是从一开始,应用的交互、数据流、任务流、权限模型就是为 AI Agent 设计的。流程大概像这样:

用户表达目标
AI 理解上下文
调用本地模型 / 本地数据 / 传感器
必要时调用云端大模型或 API
执行任务
用户确认关键动作
结果反馈和持续记忆

拿这个框架去看豆包手机,它更像是在旧 APP 世界里训练一个会点屏幕的 AI,通过读屏和模拟点击来替人操作。这种方式注定要迁就原有 APP 的 GUI 假设,效率上限也显而易见。

真正的 AI 原生,应该反过来,重建一个让 AI 直接调用能力的新世界:系统和服务从一开始就为 Agent 调用而设计,通过标准化的 API、Intent 和权限体系让 AI 直接完成任务。模拟点击只是过渡,不是终点。

相关文章