可穿戴设备的两点启发

kohsruhe@outlook.com (Leehyon HNG) — Thu, 11 Jun 2026 09:58:13 +0800

今天听播客的时候了解到两个概念，是关于 AI 设备的，特别是可穿戴这一块，有点启发便记录下来。

我们讨论可穿戴到底在讨论什么

很多人讨论 AI 手机、AI 眼镜、AI Pin 时，容易把问题简化成：

但真正的变化不在于“手机里多了一个 AI 功能”，而在于两个更底层的迁移，也就是：

端侧设备，比如手机、眼镜，有天然的限制，算力、电池、内存、散热等，如果把 AI 能力都放在设备本地，体验会受限很多。但是，如果把所有能力都放到云端，也会有很多问题，网络延迟、实时性、用户隐私等。所以这里引入了端云结合的概念，即「端侧负责靠近用户，云侧负责扩展智能」。

具体来说，端侧适合做那些“近身、实时、隐私、低功耗”的任务：唤醒词检测、语音前处理、本地数据检索、离线场景下的兜底能力。云侧则反过来：跑大模型、多轮规划、长上下文、多模态、RAG 检索、知识更新、多 API 编排等。今年 WWDC 就是聊的这些。

但这里面其实不容易做，不是简单的“本地跑一点、云端跑一点”。什么时候在端侧做、什么时候上云、失败了怎么降级、数据怎么保护、体验怎么保持一致等等，每一件拧出来都有难度，这也是为什么 Apple Intelligence 一直差强人意，国行就更别提了。

我们再回过来看我们的手机 APP，基本是的操作流是这样的：

用户 → APP → 页面 → 按钮 → 服务

这条链路是“给人操作”的，所以 APP 设计有一个假设，即人知道自己要打开哪个应用，也知道该点哪里。该假设在简单任务里成立，复杂任务就低效。

所以做 AI 设备需要换个思路，要从「以人为本」切到「AI 原生」，即：

用户目标 → AI Agent → 工具 / API / 服务 → 结果

用户的定位也变了，不再表达“我要点哪里”，而是说“我想要什么”。对比一下就知道：传统 APP 给人看，所以是界面优先；而 AI 原生是给 Agent 调，所以要能力优先。而这意味着服务商必须把能力开放成可调用的接口，而不是藏在一堆点击路径后面。

眼镜、耳机、车机、机器人、智能家居，这些天然就不适合复杂点击。它们共同的需要是语音、视觉、上下文、API 调用，这些几乎只能在 AI 原生范式下才能玩的起来。

所以要理解 AI 手机/设备，要走出“手机里装了个 AI APP”或者"APP 里加了问答助手”这种思维，而是从一开始，应用的交互、数据流、任务流、权限模型就是为 AI Agent 设计的。流程大概像这样：

用户表达目标
  ↓
AI 理解上下文
  ↓
调用本地模型 / 本地数据 / 传感器
  ↓
必要时调用云端大模型或 API
  ↓
执行任务
  ↓
用户确认关键动作
  ↓
结果反馈和持续记忆

拿这个框架去看豆包手机，它更像是在旧 APP 世界里训练一个会点屏幕的 AI，通过读屏和模拟点击来替人操作。这种方式注定要迁就原有 APP 的 GUI 假设，效率上限也显而易见。

真正的 AI 原生，应该反过来，重建一个让 AI 直接调用能力的新世界：系统和服务从一开始就为 Agent 调用而设计，通过标准化的 API、Intent 和权限体系让 AI 直接完成任务。模拟点击只是过渡，不是终点。