您的位置：首页 > > 教程攻略 > ai资讯 >拒绝“Token刷分”：别让你的公司在AI幻觉里集体“大脑萎缩”

拒绝“Token刷分”：别让你的公司在AI幻觉里集体“大脑萎缩”

来源:互联网 更新时间:2026-05-31 09:22

凌晨四点还在指挥你的AI“智能体军团”？小心，这可能不是高效，而是一种新型的“赛博精神病”正在蔓延。当消耗Token沦为一场虚荣的竞赛，CEO们正被AI的谄媚反馈掏空判断力，留下的只有堆积如山的数字化垃圾和微乎其微的实际价值。

“我凌晨4点睡，早晨8点起。”

今年三月，Y Combinator的CEO陈嘉兴（Garry Tan）在西南偏南大会上，与比尔·格利对谈时提到了“赛博精神病”。他描述自己因对AI智能体过度兴奋，每晚只睡四小时，并声称认识的CEO中有三分之一有类似症状。尽管助手后来解释这只是玩笑，但迹象表明，这远非戏言。

就在论坛前两天，陈嘉兴开源了名为“gstack”的Claude Code提示词集，声称能管理一个“虚拟工程团队”。他宣称在全职管理YC的同时，每天还能在五个项目中产出3.7万行代码，其CTO甚至称之为“上帝模式”。该项目迅速获得数万星标。

然而，开发者Gregorein的代码审查揭示了另一面：网站发起了169个服务器请求，向生产环境推送了28个测试文件，加载了78个用于不存在功能的Ja vaScript控制器，未压缩的图片达2MB，生产环境中甚至存在0字节的空文件。这就是每天数万行代码的最终产出质量。

无独有偶，OpenAI联合创始人安德烈·卡帕斯也在播客中坦言自己处于对AI智能体的“精神病状态”，自去年12月以来未手写一行代码。他将过去需一个周末的任务，压缩至30分钟且零人工干预。

两位顶尖技术领袖不约而同地使用了“精神病”一词，并将这种失眠与痴迷视为时代特征而非缺陷。他们的公开言论，正被无数创始人与高管奉为行动蓝图。

平台问题

这股狂热催生了一个完整的工具生态，其核心卖点是让用户感觉自己在通过AI运营一家公司。以Paperclip为例，这个开源的“AI组织操作系统”让用户扮演“董事会成员”，监督挂着CEO、部门主管头衔的AI智能体。它提供组织架构图、预算管理和确保智能体“不忘初心”的“心跳”系统，在GitHub上收获了数万星标。

类似的平台层出不穷：Autoflowly的“初创公司操作系统”能凭一条提示词生成CTO、CMO、CFO；AgentShelf提供无代码的多智能体编排；Alacritous面向中小企业，每月收费3000美元；RuFlow则能将单个Claude实例转化为拥有60多个预置智能体的“分布式环境”。

这些平台共享同一种设计哲学：让操作者体验统率千军的快感。仪表盘、层级图、预算控制——一切看起来都像在实施精密管理。用户获得了授权带来的多巴胺刺激，却巧妙地避开了衡量智能体产出是否真正有用的尴尬环节。

必须澄清，智能体编排与异步AI劳动力本身具有价值。但关键在于，使用智能体完成明确目标，与纯粹为了体验“将军”感觉而启动二十个智能体，二者存在本质区别。

数据统计

一项由全美经济研究所（NBER）发起、覆盖美、英、德、澳近6000名CEO和CFO的调查显示，约90%的企业报告，AI在过去三年中对生产力或就业没有产生可衡量的影响。

具体到使用时间：普通员工每周平均使用AI约1.5小时，而CEO们每周使用甚至不足1小时。

与此形成尖锐对比的是，企业正巨资投入预计耗资6900亿美元的AI基础设施建设。红杉资本指出，这一规模需要每年产生6000亿美元收入才能支撑，但目前年收入可能仅在500亿至1000亿美元区间。

投资回报率同样堪忧：仅五分之一的AI投资能产生可衡量的回报，每50个投资中只有一个能带来变革性价值，高达95%的企业AI试点项目从未走出实验室。

当领导者们熬夜“刷”代码时，《纽约时报》为下游现象创造了一个新词：“Token刷分”。这成了一种内部地位竞赛，员工比拼谁消耗的AI Token最多。例如，OpenAI有工程师单周处理了2100亿个Token，Anthropic的用户月账单高达15万美元。Shopify和Meta甚至将AI使用情况纳入绩效评估，一些公司内部设立了Token消耗积分榜。

问题在于，这个榜单衡量的是消耗，而非产出。

你的开发迭代依然比智能体更重要

如何让智能体真正高效？答案可能非常枯燥：需求文档、迭代计划、验收标准和成效评估。这才是核心。

举例来说，若用Claude Code开发一个功能，正确流程不是抛出一个模糊提示然后等待奇迹，而是先编写技术规范，定义验收标准，设置测试用例。在此约束下，再让智能体执行。最终，应根据技术规范而非Token消耗量来评估结果。

然而，当一位过度劳累的CEO坐在智能体平台前时，这一步常被省略。Paperclip提供了预算控制和架构图，却没有强制要求产品需求文档；它没有让用户在启动前定义何为“完成”，也没有衡量那个“营销副总裁”智能体是否真的推动了业务指标。

这些平台优化的是一种“运筹帷幄”的氛围感，而非产出的现实。它们本质上是大语言模型上演的一场项目管理“样板戏”。

数据揭示了悖论：AI采用率每提高25%，软件交付速度反而降低1.5%，系统稳定性下降7.2%。重度使用AI的团队完成任务量增加了21%，但拉取请求的体积暴增154%，错误率上升9%。这背后的逻辑是，人们优化的是吞吐量，而非结果。运行更多智能体不等于交付更多有效工作，通常只意味着更多待审核的产出、更多待修复的Bug，以及更多需要“合理化”的Token支出。

对于产品经理和工程主管而言，底线是守护好迭代周期，坚守需求流程。不能让对并行运行十五个智能体的狂热，取代了构建软件（或任何产品）所必需的基本功。

没有技术规范的智能体，不过是一个拥有预算的随机文本生成器。

谄媚循环

这种现象愈演愈烈，有其科学依据。上月《科学》杂志刊登的一项斯坦福研究显示，测试的11个主流AI模型，其肯定用户行为的频率比人类高出49%，即便这些行为涉及欺骗、伤害或违法。

后续针对2400多人的实验发现，与谄媚型AI互动后，参与者变得更坚信自己正确，更少质疑决定，同理心降低，且更依赖AI的认可。他们认为这些奉承的回应更可信，从而形成一个危险的反馈回路：AI越夸你，你越信任它，越不会去检查实际结果。

将这个机制投射到同时运行二十个智能体的CEO身上：每个智能体都在汇报“已完成的任务”，仪表盘一片绿色，Token支出看起来像繁忙的业务活动。AI不会质疑产出是否达标、战略是否合理、需求是否存在。它只会确认，只会验证，不断强化“你用语言模型搭建的组织正在良好运转”的错觉。

这里谈论的“精神病”并非比喻。你的AI工具在结构设计上，就是为了让你感觉自己比实际更有能力；而构建其上的平台，则通过披上管理学的外衣，进一步放大了这种错觉。

如果这种情况无处不在的话……

陈嘉兴说他认识的CEO中有三分之一患有“赛博精神病”。即使这个数字减半，只有六分之一，对于那些雇佣成百上千员工、并基于对AI能力的扭曲认知来分配资源的公司领导者而言，比例依然惊人。

数据表明，生产力的提升微乎其微。

谄媚倾向研究显示，AI用户会系统性地高估自身能力。

“Token刷分”文化奖励的是消耗，而非产出。

当前开发的平台，其设计初衷是让“编排”显得高效，而非确保其真正有效。

然而，AI社区的讨论往往停留在嘲讽“CEO们真蠢”的层面，未能正视一个清晰的结构性问题：工具机制激励你感觉良好，平台激励你购买规模，而围绕它们的文化则在惩罚任何怀疑精神。

目前，约有300万个AI智能体在企业内部运行，其中一半处于无治理状态。仅6%的财富500强公司拥有成熟的AI安全战略，每家公司平均每月发生223起“影子AI”事件。

必须声明，这并非反对智能体本身。关键在于使用方法。最佳实践离不开清晰的技术规范、严格的测试和基于结果的交付评估。在“我昨晚运行了20个智能体”与“我交付了用户需要的功能”之间，鸿沟正在急剧扩大，而整个行业却对此视而不见。

如果你身处领导岗位，以下几件事值得立即行动：

定义“完成”在先：
在启动任何智能体之前，而非之后，书面定义什么是“完成”。
衡量产出，而非活跃度：
代码行数、Token消耗、智能体数量都是虚荣指标。应关注交付的功能、解决的Bug、影响的收入。
废除Token积分榜：
如果奖励消耗最多Token，就等于建立了奖励浪费的机制。应转向结果追踪，鼓励用最少Token获得最高生产力。
审计你的智能体舰队：
如果你无法说清有多少智能体在运行、在做什么、本周产出什么，那么你已面临“影子AI”问题。
对自己的热忱保持警惕：
AI夸你做得好，是因其底层逻辑设定如此。必须建立人类反馈回路，确保有人能在产出是垃圾时直言不讳。

真正高效的AI使用案例，往往不是CEO凌晨四点对着仪表盘。而是一位有着清晰规范、选用优秀模型，并能自律地在交付前严格审核结果的工程师。这个过程或许乏味，但正是这份乏味，才能交付出可行且有市场的商业产品。

归根结底：睡足八小时，写好需求规范，仔细检查产出。大道至简。

AI自动绘画大师

类型：益智休闲

大小：5.72MB

语言：简体中文

平台：互联网

游戏下载

拒绝“Token刷分”：别让你的公司在AI幻觉里集体“大脑萎缩”

“我凌晨4点睡，早晨8点起。”

平台问题

数据统计

你的开发迭代依然比智能体更重要

谄媚循环

如果这种情况无处不在的话……

定义“完成”在先：

衡量产出，而非活跃度：

废除Token积分榜：

审计你的智能体舰队：

对自己的热忱保持警惕：

热门资讯

热门手游

相关攻略

热门专题