<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>ai-first on Kohsruhe</title>
    <link>https://www.kohsruhe.com/zh/tag/ai-first/</link>
    <description>Recent content in ai-first on Kohsruhe</description>
    <generator>Hugo -- gohugo.io</generator>
    <language>zh</language>
    <managingEditor>kohsruhe@outlook.com (Leehyon HNG)</managingEditor>
    <webMaster>kohsruhe@outlook.com (Leehyon HNG)</webMaster>
    <lastBuildDate>Tue, 26 May 2026 09:48:08 +0800</lastBuildDate>
    
    <atom:link href="https://www.kohsruhe.com/zh/tag/ai-first/index.xml" rel="self" type="application/rss+xml" />
    
    
    <item>
      <title>[译] 为什么你的「AI 优先」战略很可能是错的</title>
      <link>https://www.kohsruhe.com/zh/2026/05/why-your-ai-first-strategy-is-probably-wrong/</link>
      <pubDate>Tue, 26 May 2026 09:48:08 +0800</pubDate>
      <author>kohsruhe@outlook.com (Leehyon HNG)</author>
      <guid>https://www.kohsruhe.com/zh/2026/05/why-your-ai-first-strategy-is-probably-wrong/</guid>
      <description>&lt;p&gt;✨ 真正的 AI-First 不是用 AI 提效，而是以 AI 为核心重构整个工程体系，让人类从「写代码」转为「设计系统与约束智能体」。&lt;/p&gt;
&lt;p&gt;原文由 &lt;a href=&#34;https://x.com/intuitiveml&#34;&gt;Peter Pang&lt;/a&gt; 发布。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;Original: &lt;a href=&#34;https://x.com/intuitiveml/status/2043545596699750791&#34;&gt;https://x.com/intuitiveml/status/2043545596699750791&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id=&#34;引言&#34;&gt;引言&lt;/h2&gt;
&lt;blockquote&gt;
&lt;p&gt;我们 99% 的生产代码都是由 AI 编写的。&lt;/p&gt;</description>
      <content:encoded><![CDATA[<p>✨ 真正的 AI-First 不是用 AI 提效，而是以 AI 为核心重构整个工程体系，让人类从「写代码」转为「设计系统与约束智能体」。</p>
<p>原文由 <a href="https://x.com/intuitiveml">Peter Pang</a> 发布。</p>
<blockquote>
<p>Original: <a href="https://x.com/intuitiveml/status/2043545596699750791">https://x.com/intuitiveml/status/2043545596699750791</a></p>
</blockquote>
<hr>
<h2 id="引言">引言</h2>
<blockquote>
<p>我们 99% 的生产代码都是由 AI 编写的。</p>
</blockquote>
<p>上周二，我们在上午 10 点发布了一个新功能，中午完成了 A/B 测试，并在下午 3 点因为数据不理想而将它下线。下午 5 点，我们发布了一个更好的版本。三个月前，这样一个周期需要六周时间。</p>
<p>我们之所以能做到这一点，并不是因为在 IDE 里加了 Copilot。而是我们拆掉了整个工程流程，并围绕 AI 从头重建。我们改变了规划、开发、测试、部署以及团队组织的方式。</p>
<p>我们重新定义了公司里每一个人的角色。</p>
<h2 id="背景">背景</h2>
<p>CREAO 是一个 agent 平台。公司有 25 名员工，其中 10 名是工程师。我们在 2025 年 11 月开始构建 agent，两个月前，我从底层彻底重构了整个产品架构和工程流程。OpenAI 在 2026 年 2 月提出了一个概念，很好地描述了我们一直在做的事。他们称之为 Harness Engineering（缰绳工程）：工程团队的主要职责不再是写代码，而是让 agent 能够完成有用的工作。</p>
<p>当某件事失败时，解决方式绝不是“再努力一点”。</p>
<p>真正的问题是：</p>
<blockquote>
<p>缺少了什么能力？以及我们如何让这种能力对 agent 来说是可理解且可执行的？</p>
</blockquote>
<p>我们是自己得出了这个结论。只是当时还没有一个名字。</p>
<h2 id="ai-优先并不等于使用-ai">「AI 优先」并不等于「使用 AI」</h2>
<p>大多数公司只是把 AI 叠加到现有流程上：</p>
<ul>
<li>工程师打开 Cursor</li>
<li>产品经理用 ChatGPT 写需求文档</li>
<li>QA 尝试用 AI 生成测试</li>
</ul>
<p>但工作流程本身没有改变。效率提高了 10% 到 20%，但结构没有任何本质变化。</p>
<p>这只是 AI 辅助（AI-Assisted）。</p>
<p>AI-First 的意义在于：你要在“AI 是主要构建者”的前提下，重构流程、架构和组织。</p>
<p>你不再问：</p>
<blockquote>
<p>AI 如何帮助工程师？</p>
</blockquote>
<p>而是开始问：</p>
<blockquote>
<p>我们如何重构一切，让 AI 来负责构建，而工程师提供方向和判断？</p>
</blockquote>
<p>这种差别是倍数级的。</p>
<p>我看到很多团队声称自己是 AI-First，但依然在运行：</p>
<ul>
<li>相同的 sprint 周期</li>
<li>相同的 Jira 看板</li>
<li>相同的每周站会</li>
<li>相同的 QA 签核</li>
</ul>
<p>他们只是把 AI 加进了循环，却没有重构整个循环。</p>
<p>一个常见的形式是所谓的 vibe coding：</p>
<ul>
<li>打开 Cursor</li>
<li>不断写 prompt 直到结果可用</li>
<li>提交代码</li>
<li>重复</li>
</ul>
<p>这可以产出原型。但一个生产系统需要具备：</p>
<ul>
<li>稳定性</li>
<li>可靠性</li>
<li>安全性</li>
</ul>
<p>你需要建立一套系统，确保当 AI 编写代码时也能满足这些要求。</p>
<blockquote>
<p>你构建的是系统，prompt 是一次性的。</p>
</blockquote>
<h2 id="为什么我们必须改变">为什么我们必须改变</h2>
<p>去年，我观察团队的工作方式，发现了三个会拖垮我们的瓶颈。</p>
<h3 id="1-产品管理瓶颈">1. 产品管理瓶颈</h3>
<p>我们的产品经理需要花几周时间做调研、设计和需求定义。这种方式已经沿用了几十年。但 agent 可以在两个小时内实现一个功能。当构建时间从几个月缩短到几个小时，几周的规划周期反而成了限制。</p>
<blockquote>
<p>花几个月思考，然后用两小时构建，这已经没有意义。</p>
</blockquote>
<p>产品经理需要进化为具备产品思维的架构师，以迭代的速度工作，或者离开构建循环。设计需要通过快速的&quot;原型-发布-测试-迭代&quot;循环完成，而不是在评审委员会上审阅规格文档。</p>
<h3 id="2-qa-瓶颈">2. QA 瓶颈</h3>
<p>同样的动态。agent 发布一个功能后，我们的 QA 团队花好几天测试边界情况。</p>
<ul>
<li>构建时间：两小时</li>
<li>测试时间：三天</li>
</ul>
<p>我们用 AI 构建的测试平台替换了手动 QA，用来测试 AI 写的代码。验证的速度必须跟上实现的速度。否则你只是在下游十英尺处新造了一个瓶颈。</p>
<h3 id="3-人员规模瓶颈">3. 人员规模瓶颈</h3>
<p>我们的竞争对手有 100 倍甚至更多的人力在做类似的工作。我们只有 25 人。我们无法靠招人追赶。我们必须靠重新设计来达到同等水平。</p>
<p>三个系统需要 AI 贯穿其中：如何设计产品、如何实现产品、如何测试产品。只要其中一个环节是手动的，它就会制约整个流水线。</p>
<h2 id="大胆的决策统一架构">大胆的决策：统一架构</h2>
<p>我得先解决代码库的问题。</p>
<p>我们旧的架构分散在多个独立的系统中。一次改动可能需要涉及三四个仓库。从人类工程师的角度看，这还可以管理。但从 AI agent 的角度看，这是不透明的。agent 看不到全貌，无法推理跨服务的影响，无法在本地跑集成测试。</p>
<p>我必须把所有代码统一到单个 monorepo 里。原因只有一个：让 AI 能看见一切。</p>
<p>这是 Harness Engineering 原则的实践。你越是把系统的各部分拉到 agent 可以审查、验证和修改的形式中，你获得的杠杆就越大。碎片化的代码库对 agent 来说是隐形的。统一后的代码库是可读的。</p>
<p>我用一周设计新系统：规划阶段、实现阶段、测试阶段、集成测试阶段。然后用另一周用 agent 重构了整个代码库。</p>
<p>CREAO 是一个 agent 平台。我们用自己的 agent 来重建运行 agent 的平台。如果产品能自己建造自己，它就真的管用。</p>
<h2 id="技术栈">技术栈</h2>
<h3 id="基础设施aws">基础设施：AWS</h3>
<p>我们运行 AWS 上的自动扩缩容器服务，带断路回滚机制。部署后如果指标恶化，系统自动回退。</p>
<p>CloudWatch 是中枢神经系统。所有服务的结构化日志、超过 25 个告警、每天由自动化工作流查询的自定义指标。每一块基础设施都暴露结构化、可查询的信号。如果 AI 读不了日志，它就诊断不了问题。</p>
<h3 id="cicdgithub-actions">CI/CD：GitHub Actions</h3>
<p>每次代码变更经过六阶段流水线：</p>
<p><code>Verify CI → Build and Deploy Dev → Test Dev → Deploy Prod → Test Prod → Release</code></p>
<p>每个 PR 的 CI 关卡强制执行类型检查、linting、单元和集成测试、Docker 构建、Playwright 端到端测试和环境一致性检查。没有阶段是可选的。没有手动绕过。流水线是可确定的，agent 可以预测结果并推理失败原因。</p>
<h3 id="ai-代码评审claude">AI 代码评审：Claude</h3>
<p>每条 PR 触发三轮并行的 AI 评审，使用 Claude Opus 4.6：</p>
<ul>
<li>第一轮：代码质量——逻辑错误、性能问题、可维护性。</li>
<li>第二轮：安全——漏洞扫描、认证边界检查、注入风险。</li>
<li>第三轮：依赖扫描——供应链风险、版本冲突、许可证问题。</li>
</ul>
<p>这些是评审关卡，不是建议。它们和人类评审并行运行，以量捕捉人类遗漏的问题。当你每天部署八次时，没有人类评审员能在每条 PR 上保持注意力。</p>
<p>工程师也可以在 GitHub issue 或 PR 中 @claude 请求实现方案、调试会议或代码分析。agent 能看到整个 monorepo。上下文在对话间延续。</p>
<h3 id="自愈反馈环">自愈反馈环</h3>
<p>这是核心。</p>
<p>每天 UTC 时间 9:00 AM，一个自动化健康工作流启动。Claude Sonnet 4.6 查询 CloudWatch，分析所有服务的错误模式，生成一份执行级健康摘要，通过 Microsoft Teams 发送给团队。没有人需要去问。</p>
<p>一小时后，分类引擎启动。它将 CloudWatch 和 Sentry 中的生产错误聚类，按九个严重维度打分，然后在 Linear 中自动生成调查工单。每个工单包含示例日志、受影响用户、受影响端点和建议的调查路径。</p>
<p>系统会自动去重。如果已开的 issue 覆盖了相同的错误模式，它会更新该 issue。如果已关闭的 issue 复发，它会检测到回归并重新打开。</p>
<p>当工程师推送修复时，同一套流水线处理一切。三轮 Claude 评审评估 PR。CI 验证。六阶段部署流水线在 dev 和 prod 间推进，每阶段都有测试。部署完成后，分类引擎重新检查 CloudWatch。如果原始错误已解决，Linear 工单自动关闭。</p>
<p>每个工具只处理一个阶段。没有一个工具试图做所有事情。每日循环创造了一个自愈闭环：错误被检测、分类、修复和验证，只需要最少的人工干预。</p>
<p>我对 Business Insider 的记者说：“AI 会创建 PR，人类只需要评审是否存在风险”。</p>
<h3 id="feature-flags-与支撑栈">Feature Flags 与支撑栈</h3>
<p>Statsig 管理 feature flag。每个功能在开关后面发布。发布模式：先开放给团队内部，然后逐步百分比开放，最后全面发布或下线。kill switch（紧急下线开关）可以立即关闭一个功能，无需重新部署。如果一个功能导致指标恶化，几小时内就能撤销。不好的功能在发布当天就死掉。A/B 测试通过同一套系统运行。</p>
<p>Graphite 管理 PR 分支：合并队列自动 rebase 到主分支，重新跑 CI，仅当所有检查通过时才合并。堆叠式 PR（stacked PRs）支持增量评审，在高吞吐场景下保持 review 质量。</p>
<p>Sentry 收集所有服务的结构化异常，由分类引擎与 CloudWatch 数据合并以实现跨工具上下文。Linear 是人类面对的一层：带有严重性评分、示例日志和建议调查方案的自动创建工单。去重防止噪音。跟进验证自动关闭已解决 issue。</p>
<h2 id="一个功能从想法到上线">一个功能从想法到上线</h2>
<p>New Feature 路径：</p>
<ul>
<li>架构师将任务定义为结构化提示词（附代码库上下文、目标和约束）</li>
<li>agent 分解任务，规划实现，写代码并生成自己的测试</li>
<li>打开 PR。三轮 Claude 评审评估。人类评审者检查的是战略风险，不是逐行正确性</li>
<li>CI 验证：类型检查、linting、单元测试、集成测试、端到端测试</li>
<li>Graphite 的合并队列 rebase，重跑 CI，通过后合并</li>
<li>六阶段部署流水线在 dev 和 prod 间推进，每阶段有测试</li>
<li>功能开关先对团队开放。逐步百分比开放。监控指标</li>
<li>如有任何指标恶化，kill switch 可立即下线。严重问题用断路器自动回滚</li>
</ul>
<p>Bug Fix 路径：</p>
<ul>
<li>CloudWatch 和 Sentry 检测到错误</li>
<li>Claude 分类引擎打分严重性，创建包含完整调查上下文的 Linear issue</li>
<li>工程师调查。AI 已经做了诊断。工程师验证并推送修复</li>
<li>同样的评审、CI、部署和监控流水线</li>
<li>分类引擎重新验证。如果已解决，工单自动关闭</li>
</ul>
<p>两条路径使用同一套流水线、一个系统、一个标准。</p>
<h2 id="结果">结果</h2>
<p>14 天内，我们平均每天 3 到 8 次生产部署。在旧模式下，整个两周的时间连一次生产发布都做不到。</p>
<p>不好的功能在发布当天就被撤回。新功能在构思当天就上线。A/B 测试实时验证影响。</p>
<p>人们以为我们在用速度换质量。但用户参与度上升了。支付转化率上升了。我们产出的结果比以前更好，因为反馈环更紧密了。你每天发布学到的东西比每月发布多得多。</p>
<h2 id="新的工程组织">新的工程组织</h2>
<p>将来只会存在两类工程师。</p>
<h3 id="架构师-architect">架构师 Architect</h3>
<p>一到两个人。他们设计标准操作流程（SOP），教 AI 如何工作。他们构建测试基础设施、集成系统、分类系统。他们决定架构和系统边界。他们定义什么对 agent 来说是&quot;好&quot;的。</p>
<p>这个角色需要深度批判性思维。你批评 AI，而不是跟随 AI。当 agent 提出一个方案时，架构师找出漏洞。它遗漏了什么失败模式？它越过了什么安全边界？它在积累什么技术债？</p>
<p>我有物理学博士学位。读博对我最有用的训练是如何质疑假设、压力测试论点、寻找缺失的东西。批评 AI 的能力将比产生代码的能力更有价值。</p>
<p>这也是最难填补的岗位。</p>
<h3 id="操作员-operator">操作员 Operator</h3>
<p>其他所有人。工作本身仍然重要，但结构不同了。</p>
<p>AI 给人类分配任务。分类系统发现 bug，创建工单，呈现诊断结论，分配给合适的人。这个人调查、验证、批准修复。AI 创建 PR。人类评审是否存在风险。</p>
<p>任务是 bug 调查、UI 打磨、CSS 改进、PR 评审、验证。它们需要技能和注意力。它们不再需要旧模型下的架构推理能力。</p>
<h3 id="谁适应得最快">谁适应得最快？</h3>
<p>我注意到了一个意料之外的模式。初级工程师比高级工程师适应得更快。</p>
<p>传统实践经验较少的初级工程师感到更有力量。他们获得了能放大自己影响力的工具。他们没有携带十年需要卸载的习惯。</p>
<p>拥有深厚传统实践经验的高级工程师最难受。他们两个月的工作量，AI 一个小时就能完成。在花了多年时间建立一项稀缺技能之后，接受这个事实很难。</p>
<p>我不是在评判谁对谁错。我只是在描述我观察到的事实。在这个转型中，适应性比积累的技能更重要。</p>
<h2 id="人的一面">人的一面</h2>
<h3 id="管理消失了">管理消失了</h3>
<p>两个月前，我 60% 的时间花在管理人上：对齐优先级、开会、给反馈、指导工程师。今天：不到 10%。</p>
<p>传统的 CTO 模式说你要赋能团队——让他们做架构工作、培训他们、授权他们。但如果系统只需要一到两个架构师，我得先自己来做。我从管理变成了建造。大多数日子里我从早上 9 点写到凌晨 3 点。我设计 SOP 和系统架构。我维护缰绳（harness）。</p>
<p>更有压力。但我享受建造本身，而不是对齐工作。</p>
<h3 id="少争吵更好的关系">少争吵，更好的关系</h3>
<p>我和联合创始人及工程师的关系比以前更好了。</p>
<p>转型之前，我和团队的大部分互动都是对齐会议：讨论权衡、争论优先级、对技术决策有分歧。这些对话在传统模型中是必要的，但也很消耗人。</p>
<p>现在我仍然和团队聊天。我们聊其他事情——非工作话题、闲聊、团建出行。我们关系更好了，因为不再争论那些系统能轻松完成的工作。</p>
<h3 id="不确定性是真实的">不确定性是真实的</h3>
<p>我不会假装每个人都开心。</p>
<p>当我停止每天和团队交流后，一些团队成员感到不安。CTO 不和我说话意味着什么？在这个新世界里我的价值是什么？这些都是合理的担忧。</p>
<p>有些人花更多时间辩论 AI 是否能做他们的工作，而不是实际去做工作。转型期会制造焦虑。我没有一个干净利落的答案。</p>
<p>但我有一个原则：我们不会因为工程师引入了一个生产 bug 就开除他。我们会改进评审流程、加强测试、增加护栏。对 AI 也是一样。如果 AI 犯了错，我们就建更好的验证、更清晰的约束、更强的可观测性。</p>
<h2 id="超越工程">超越工程</h2>
<p>我看到其他公司采用 AI-First 工程，但留下所有其他环节还是手动的。</p>
<p>如果工程几小时就能交付功能，但市场部要花一周来发布公告，那么市场部就是瓶颈。如果产品团队仍然跑月度计划周期，那么计划就是瓶颈。</p>
<p>在 CREAO，我们把 AI-native 操作推到了每个职能：</p>
<ul>
<li>产品发布说明：AI 从 changelog 和功能描述中自动生成</li>
<li>功能介绍视频：AI 生成动态图形</li>
<li>社交媒体日常帖子：AI 编排并自动发布</li>
<li>健康报告和分析摘要：AI 从 CloudWatch 和生产数据库生成</li>
</ul>
<p>工程、产品、市场和增长运行在同一个 AI-native 工作流中。如果一个职能以 agent 速度运行，另一个以人类速度运行，那么人类速度的职能就会制约一切。</p>
<h2 id="这意味着什么">这意味着什么</h2>
<h3 id="对工程师而言">对工程师而言</h3>
<p>你的价值正从代码产出转向决策质量。快速写代码的能力每个月都在贬值。评估、批评和指导 AI 的能力每个月都在升值。</p>
<p>产品感或品味很重要。你能看一眼生成的 UI，在用户告诉你之前就发现不对吗？你能看一眼架构方案，就发现 agent 遗漏的失败模式吗？</p>
<p>我告诉我们 19 岁的实习生：训练批判性思维。学会评估论点、找漏洞、质疑假设。学会什么是好的设计。这些技能会持续复利。</p>
<h3 id="对-cto-和创始人而言">对 CTO 和创始人而言</h3>
<p>如果你的 PM 流程比构建时间还长，从那里开始改。</p>
<p>在规模化 agent 之前先建好测试缰绳。没有快速验证的快速 AI 是快速流动的技术债。</p>
<p>从一个架构师开始。一个人搭建系统并证明它能跑。系统跑起来后再把其他人引入操作员角色。</p>
<p>把 AI-native 推入每个职能。</p>
<p>做好遇到抵抗的准备。有些人会反弹。</p>
<h3 id="对行业而言">对行业而言</h3>
<p>OpenAI、Anthropic 和多个独立团队都收敛到了相同的原理上：结构化上下文、专用 agent、持久化记忆和执行循环。Harness Engineering 正在成为一个标准。</p>
<p>模型能力是驱动这一切的时钟。我把 CREAO 的全部转变归因于最近两个月。Opus 4.5 做不到 Opus 4.6 能做的事。下一代模型会加速得更多。</p>
<p>我相信单人公司将会变得普遍。如果一个架构师加 agent 能做 100 人的工作，很多公司不再需要第二个员工。</p>
<h2 id="我们还早">我们还早</h2>
<p>我交谈过的大多数创始人和工程师仍然在以传统方式运作。有些人考虑过转型。很少有人已经做了。</p>
<p>一个记者朋友告诉我她大约和五个人聊过这个话题。她说我们比任何人都走得更远：“我觉得没有人像你们这样彻底地重建了全套工作流。”</p>
<p>这些工具对任何团队都是可用的。我们的栈里没有任何东西是专有的。</p>
<blockquote>
<p>竞争优势在于围绕这些工具重新设计一切的决心，以及承受代价的意愿。</p>
</blockquote>
<p>代价是真实的：员工的不确定性、CTO 每天工作 18 小时、资深工程师质疑自己的价值、旧系统消失新系统尚未被证明的两周真空期。</p>
<p>我们承受了那个代价。两个月后，数字说明了一切。</p>
<p>我们是构建 agent 平台的公司。</p>
<p>我们用 agent 构建了它。</p>
]]></content:encoded>
    </item>
    
  </channel>
</rss>