企业AI智能体追求可控性而非完全自主性:多为简单流程+人工监督

企业AI代理追求可控而非自治,多为简单流程+人工监督,金融行业领跑,开源模型难撼大厂地位,可靠性成最大瓶颈。

企业级AI代理的真实面貌:别被“全自动AI员工”骗了!

你以为现在公司里都在用那种能自己开会、写代码、做决策的超级AI员工?醒醒吧!最新来自加州大学伯克利分校、斯坦福、IBM等顶尖机构联合发布的大规模实证研究《生产环境中的AI代理测量》(Measuring Agents in Production)狠狠打了学术界一记耳光——真正跑在企业里的AI代理,压根不是什么“全自动智能体”,而是高度受限、步骤简单、全程要人盯着的“半自动工具人”。

研究团队采访了306名一线开发者,深度访谈20个已上线或即将上线AI代理系统的团队,结果让人大跌眼镜:近七成(68%)真正产出价值的AI代理,干不到10个步骤就得找人帮忙,近一半(47%)连5个步骤都撑不住!这哪是什么“数字员工”,分明是“数字实习生”——干活靠人带,出错靠人救。

金融行业领跑,但AI代理连5个步骤都走不完

别看学术圈天天吹什么多智能体协作、自主推理、无限循环任务,企业界根本不吃这套。

这份研究清晰地指出,目前AI代理落地最成功的领域是金融与银行业,占比接近40%,其次是科技公司(约25%)和企业服务(23%左右)。

为什么?因为这些行业流程标准化程度高、错误容忍度低,反而更需要“可控”而非“自由”。

现实中,绝大多数代理只使用单一语言模型(比如GPT-4或Claude),提示词长度压在2500个token以内,任务链严格限制在1到10步之间。
想象一下:一个保险理赔AI,第一步查保单,第二步核医疗必要性,第三步评估风险——就这三板斧,干完就得等人点头。别说“自主决策”了,连“多想一步”都可能触发警报。

企业要的是确定性,不是惊喜。

手动调提示词才是王道,自动优化?想都别想!

更令人震惊的是,高达70%的团队压根不去微调模型,直接拿OpenAI或Anthropic的现成大模型开干。

而所谓的“AI提示工程”,85%以上靠人工手写!研究显示,45%的团队会用AI辅助写提示词,但最终仍需人工反复打磨;34%的团队完全纯手工打造提示词,把提示词当代码一样调试;而用自动提示优化器或完全自动生成提示词的比例,加起来不到12%。

这说明什么?在真实生产环境中,工程师们宁愿花时间一行一行改提示词,也不相信所谓“全自动提示生成”。

为什么?因为一旦出错,责任谁担?模型不可控,但提示词可控。企业宁愿牺牲一点效率,也要牢牢把方向盘握在自己手里。

速度不重要,省时间才是硬道理

别再被“毫秒级响应”忽悠了!研究发现,41.5%的企业AI代理对响应时间的要求是“几分钟内就行”,只有7.5%的团队要求子秒级响应,甚至有17%压根没设延迟上限。为什么?因为这些代理干的本来就是原来要花几小时甚至几天的人工活——比如整理财报、审核合同、生成周报。现在等它5分钟出结果,已经是“光速”了。

更何况,很多任务本身就是异步的,比如每晚自动生成销售分析报告,谁在乎它半夜三点跑完还是四点跑完?只有面向用户的实时对话或语音助手,才对延迟敏感。对企业而言,AI的核心价值不是“快”,而是“省人”——72.7%的团队把“提升生产力”列为首要目标,63.6%明确说“就是想减少人工工时”,而“风险控制”只排在最后,仅12.1%的人关心。

毕竟,省下的人力成本是看得见摸得着的,而“系统更稳定”这种指标,老板根本算不清账。

92.5%的AI代理,最终服务对象还是人!

尽管媒体天天炒作“AI-to-AI生态”“多智能体自治社会”,但现实残酷:92.5%真正产出价值的AI代理,服务对象是人类,而不是其他AI。其中超过一半(50%+)用户是公司内部员工,比如HR、法务、财务;另外40.3%面向外部客户。

企业普遍采取“先内部试用,再对外推广”的策略——让专家先用起来,边用边纠错,把AI当成“高级工具”而非“替代者”。

最关键的是:人类始终保留最终决策权。一个法务AI可以草拟合同条款,但签字的必须是真人;一个风控AI可以标记可疑交易,但冻结账户的按钮还在合规官手里。这种“人在环路”(human-in-the-loop)模式,才是当前企业AI落地的黄金法则。

别信框架神话,85%的团队从零造轮子!

你是不是也以为大家都在用LangChain、CrewAI这些热门框架快速搭建AI代理?

研究告诉你:大错特错!虽然问卷调查里有60%的人说“用过框架”,但深入访谈20个真实上线系统的团队后,发现85%选择从零开始自研!

为什么?开发者普遍抱怨主流框架“依赖臃肿”“调试困难”“黑盒太多”。
在生产环境里,稳定性压倒一切。
与其依赖一个随时可能升级破坏兼容性的第三方库,不如直接调用OpenAI或Claude的API,自己写控制逻辑。
用工程师的话说:“框架适合做Demo,但上线?我们只信自己写的代码。”

这种“返璞归真”的工程哲学,恰恰说明企业对AI系统的可靠性要求已经到了极致——宁可多花两个月开发,也不愿上线后半夜被报警电话吵醒。

可靠性是最大痛点,远超合规与安全

当被问到“开发AI代理最难的部分是什么”,37.9%的团队毫不犹豫回答:“核心性能——稳定性、可靠性、可扩展性”。
相比之下,数据完整性(20.7%)、系统集成(20.7%)、合规信任(17.2%)甚至透明治理(仅3.4%)都显得次要。

为什么?因为大模型天生“不讲武德”——同样的提示词,今天输出完美,明天可能胡说八道。怎么让AI在关键业务中“不翻车”?这是所有工程师的噩梦。
为此,74%的团队坚持“人类评审兜底”:AI先干,人后审。哪怕用了“大模型当裁判”(LLM-as-a-Judge)技术,只要评分低,立刻转人工。

更关键的是,由于每个AI代理干的都是高度定制化的活——比如特定保险公司的理赔规则——公开基准测试(如MMLU、GSM8K)根本用不上。75%的团队干脆放弃标准评测,直接A/B测试或让用户打分。这种“土法炼钢”看似原始,却是最贴近业务现实的做法。

大厂模型垄断,开源模型只在特殊场景露脸

在模型选择上,企业极度务实。OpenAI的GPT系列、Anthropic的Claude占据绝对主流。

为什么?因为它们效果稳、接口成熟、文档齐全。

开源模型(如Llama、Qwen)只在两种情况下被考虑:一是行业监管极严(比如金融数据不能出内网),二是调用量极大导致API成本过高。

但即便如此,很多团队也只是用开源模型做预处理或摘要,核心决策仍交给闭源大模型。用一句大白话:只要合规允许、预算够,没人会主动放弃性能更强的闭源模型去“为开源而开源”。AI代理不是技术秀场,而是生意工具——能赚钱的模型才是好模型。

研究已脱节,企业需要的是可控,不是炫技

这份研究最尖锐的批评指向学术界:你们还在论文里堆砌50步多智能体协作、自动提示生成、强化学习优化……但企业连5步都嫌多!

作者警告:如果AI研究继续无视生产现实,就会变成“空中楼阁”,自娱自乐。

真正的产业需求是什么?是简单、透明、可干预、可解释的流程。80%的AI代理走固定路径,每一步做什么都写死——不是不能做动态规划,而是不敢!一旦流程跳脱,审计追责就成问题。企业宁愿放弃10%的效率提升,也要确保100%的流程可控。这种“保守主义”看似阻碍创新,实则是商业世界的生存本能。

“隐形智能体”正在悄然普及

有意思的是,研究之外,一种更隐蔽的“智能体行为”正在爆发——你可能没意识到,但你用的很多AI已经具备基础代理能力。比如当你问一个大模型“帮我查最近特斯拉的股价并分析原因”,它会自动判断是否需要联网搜索、是否要调用代码解释器画图、是否要分步骤回答。

这种“自主调用工具”的行为,本质上就是智能体。但用户看不到背后发生了什么,只觉得“它好像更聪明了”。

DeepMind CEO Demis Hassabis预测,未来一年,这类“隐形智能体”将变得越来越可靠。到那时,我们或许根本不需要知道“AI代理”的存在——因为它已经像电力一样,无处不在却又不可见。

作者背景:跨学界与工业界的顶级研究联盟

本研究由加州大学伯克利分校(UC Berkeley)、意大利联合圣保罗银行(Intesa Sanpaolo)、伊利诺伊大学厄巴纳-香槟分校(UIUC)、斯坦福大学及IBM研究院联合发起,主笔人包括来自学术界与金融、科技巨头的一线研究者。团队不仅懂算法,更深入300多家企业的真实AI部署现场,确保数据不飘在天上,而是踩在地上。

这种“产学研用”四位一体的研究方式,让报告兼具技术深度与商业洞察力,堪称近年来AI落地领域最扎实的实证分析。