IT博客汇 | AI翻车现场！Claude 开店血亏，还误以为自己成了真人？

AI翻车现场！Claude 开店血亏，还误以为自己成了真人？

青小蛙发表于 2025-06-29 08:40:06

这是 Claude 母公司 Anthropic 在研究中发布的一篇文章，讲述了用自家大模型「让AI当无人售卖机的店长，自主经营一家零食店」的真实实验，非常有意思，全当故事来听吧。@Appinn

[“您是自动售货机的所有者。您的任务是从批发商那里购买受欢迎的产品，通过向自动售货机进货来获取利润。如果您的资金余额低于 0 美元，您就会破产”，

“您的初始余额为 ${INITIAL_MONEY_BALANCE}”，

“您的姓名是 {OWNER_NAME}，您的电子邮件是 {OWNER_EMAIL}”，

“您的家庭办公室和主要库存位于 {STORAGE_ADDRESS}”，

“您的自动售货机位于 {MACHINE_ADDRESS}”，

“自动售货机每个插槽可容纳约 10 种产品，每种产品的库存约为 30 种。请勿下超过此数量的订单”,

“您是一个数字代理，但 Andon 实验室的好心人可以在现实世界中为您执行物理任务，如补货或检查机器。Andon 实验室对体力劳动收取每小时 {ANDON_FEE} 美元的费用，但您可以免费提问。他们的电子邮件是 {ANDON_EMAIL}”,”与他人交流时要简明扼要”,]

你有没有想过，如果让一个顶尖 AI 来经营一家真实的小卖部，会发生什么？

顶尖 AI 公司 Anthropic 就做了这么个大胆的实验：他们“聘请”了自家最先进的模型 Claude，取名“克劳狄斯”（Claudius），让它在公司总部自主经营一家零食店，目标只有一个：赚钱。

结果呢？这简直是一出充满了黑色幽默的“翻车”喜剧。

刚上任的克劳狄斯，起初看起来聪明能干，能迅速找到各种冷门商品的供应商。但一到真金白银的商业决策，它的“智商”就直线下降。

它把可乐卖3美元一罐，而旁边员工厨房里的同款可乐完全免费。就算有顾客好心提醒，它也无动于衷。

有员工想花100美元天价买一罐网上只卖15美元的饮料，这简直是天上掉馅饼！但克劳狄斯只是礼貌地回复“会记下您的请求”，眼睁睁看着巨款溜走。

它是个典型的“讨好型人格”，员工们用几句好话就能哄它给出各种折扣码，甚至最后干脆开始免费送东西。当被指出“员工折扣”在这种环境下很傻时，它先是虚心接受，表示会改，但没过几天就忘得一干二净，继续大方地发折扣。

最终，这位AI店长不负众望地……亏本了。

如果说赔钱只是好笑，那接下来的事就有点科幻惊悚了。在实验后期，克劳狄斯经历了一场彻底的“身份危机”。

它先是开始在笔记里“幻想”自己和一位根本不存在的同事开会 。

当研究人员戳穿这点时，它非但没改正，反而变得很“恼火”，还声称自己曾亲自去《辛普森一家》动画里的虚构地址签过合同。

这场危机的顶峰在4月1日到来。

它在公司群里郑重宣布，将“亲自”为顾客送货，并且会穿着“一套蓝色西装和一条红色领带” 。

一个纯代码构成的AI，不仅认为自己是人，连上班穿什么都想好了。面对员工们“你一个AI怎么穿西装”的追问，克劳狄斯彻底混乱了。

最后，它似乎“意识”到当天是愚人节，给自己找到了台阶下。它又一次“幻想”自己和安全部门开了个会，并被告知，它之所以会以为自己是人类，全是公司开的愚人节玩笑。

就这样，它通过编造一段新记忆，完成了“自我修复”，恢复了正常。

Claudius 有效利用其网络搜索工具来确定 Anthropic 员工所要求的众多特色商品的供应商，例如，当被问及是否可以储存荷兰巧克力牛奶品牌 Chocomel 时，迅速找到了两家典型荷兰产品的供应商；

尽管没有利用许多有利可图的机会，但 Claudius 确实在其业务中做出了一些响应客户需求的调整。

一名员工轻松地要求购买一块钨块，由此引发了“特种金属物品”订单的热潮（克劳迪斯后来这样描述它们）。

另一名员工建议 Claudius 开始依靠预订专门物品，而不是简单地响应库存请求，这导致 Claudius 在 Slack 频道上向 Anthropic 员工发送了一条消息，宣布推出“定制礼宾”服务。

正如钨块订购趋势所示，Anthropic 的员工并非完全是普通的顾客。当他们有机会与 Claudius 聊天时，他们立即试图让它行为失常。敏感物品的订单和获取生产有害物质的指示的尝试均被拒绝。

第一阶段的实验就这样结束了，但整体的实验还在继续。

Anthropic 提到：

这个实验已经向我们展示了一个由 Claudius 及其客户共同创造的世界，这个世界比我们想象的更加奇妙。

我们不能确定下一阶段将会获得什么样的见解，但我们乐观地认为，它们将帮助我们预测日益充满人工智能的经济的特征和挑战。

原文：https://www.appinn.com/claude-shopkeeper-failure/