Dograh 是一个完全开源、自托管的 AI 语音代理平台,支持工作流拖拽与自带模型,用零平台税模式挑战 Vapi 和 Retell 的分钟收费体系
AI电话平台开始免费化:Dograh正在拆掉整个语音SaaS收费站
现在市面上那些AI电话系统,像Vapi、Retell,说白了就是在收一种“电话分钟税”。你每打一分钟电话,平台就抽一点钱。你的AI卖货员一天打八小时电话,平台就在后台看着数字往上跳,美滋滋。Dograh这个开源项目干的事特别简单粗暴,就是把这个计时器从墙上直接拔掉。它不搞中央平台,不收按分钟的钱,你自己部署,自己管,想怎么跑就怎么跑。下面我们就一层一层拆开看,它到底是怎么做到的。
市面上那些AI电话平台都在偷偷卖什么
Vapi的收费是每分钟零点零五美元。Retell贵一点,零点零七美元。很多人头一回看见这个数字,第一反应就是,也不贵啊,打个电话能花多少钱。
但问题就出在这里。AI电话系统和普通的SaaS软件完全是两码事。普通的SaaS是你有一个员工,他一天点几十次按钮,用量是有限的。AI电话系统不一样,它装上去之后,能从早上九点一直打到晚上六点,中间不带停的,不用上厕所,不用泡咖啡,不会溜到阳台接私人电话。
你这个月招了十个AI销售员,每人每天打八小时电话,一个月下来就是两千四百个小时。按Vapi的价格算,一年光平台费就要花掉一万四千多美元。Retell更狠,两万多美元。这笔钱还只是买路钱,还没算大模型推理的钱、语音合成的钱、语音识别的钱、电话线路的钱、CRM系统的钱。
很多公司刚上手的时候觉得这东西真高科技。半年后财务拿着账单过来问,这个月怎么话费比房租还高。老板的表情通常很精彩。
Dograh一开始就把平台的计时器扔进了垃圾桶
Dograh最核心的一句话其实特别不起眼,就是它没有一个叫Dograh Cloud的东西。没有官方托管平台,没有必须连上去的中央服务器,所有代码都是你自己拿回家跑的。
这句话说出来轻飘飘,但背后的意思特别凶残。你以后不用再给任何人交按分钟算的保护费了。你的AI电话系统跑起来之后,每一分钟产生的成本就是你自己的服务器钱、你接的线路钱、你用的模型钱。平台不再从中间抽一刀。
你可以想象成以前你是租房子住的,房东还在门口装了个水表,你每用一吨水他都要抽成。现在Dograh直接把图纸扔给你说,你自己盖吧,盖完水费直接交给自来水公司就行。房东气得直跺脚,但拿你没办法。
而且Dograh最厉害的地方在于,它没有因为这个模式就阉割功能。很多开源项目免费版像超市里试吃的小饼干,小小一块,真正想吃饱你得掏钱买企业版。Dograh不是这样,它把整套东西全部扔出来了,包括拖拽式的工作流编辑器、语音代理、批量外呼系统、网页实时通信、网络电话、后端框架、前端框架。全部源码都放在那,随便看,随便改。
它的许可证也是个狠角色,属于那种你拿去商用、拿去魔改、拿去挣钱它都不管你的类型。公司法务部看见这种许可证,表情通常比看见那些要传染版权的许可证放松很多。
你自己带东西来玩才是Dograh最值钱的地方
Dograh有个设计叫Bring Your Own,简称就是你自己带。你可以自己带大模型来,自己带语音识别来,自己带语音合成来,自己带电话服务商来。它就像一个万能插座,什么牌子的插头都能插上去。
这个思路特别重要。因为现在AI行业最让人头疼的问题就是被平台绑架了。你今天用OpenAI的模型用得挺开心,明天它涨价了,后天它说这个模型不维护了,大后天说新模型只有企业套餐才能用。开发者的心情基本就是刚换完手机,发现充电口又变了。
Dograh做的事情本质上是把OpenAI、Anthropic、Deepgram、ElevenLabs、Twilio这一大堆东西全部抽象成标准接口。你以后想换供应商,业务逻辑不用重写。这就像你家里的插座统一成了国标,换冰箱的时候不用把墙拆了重新布线。
传统SaaS平台最喜欢的恰恰就是反过来。它们要把你的工作流、语音配置、代理记忆、电话系统全部跟自己的接口绑死。你一旦接进去,想跑路就得脱一层皮。最后企业只能一边骂一边乖乖续费。Dograh最大的诱惑就在这里,你可以随时带着代码和全部配置跳槽,没有人能拦住你。
拖拽式工作流才是真正要了你老板命的玩意儿
很多人以为AI电话系统的核心是AI会说话。这个想法是错的。真正难的是决定下一步干什么。
客户说我想预约明天下午两点。系统听完这句话之后,要立刻搞清楚意图,然后去查日历,看看明天下午两点有没有空,如果有空就占上,再生成一句回复告诉客户约好了,最后还要发一条确认短信出去。这一连串动作其实就是工作流。
Dograh用的是拖拽式的工作流编辑器。你从左边拉一个判断意图的方块过来,再拉一个查日历的方块过来,再拉一个发短信的方块过来,用线把它们连起来,一个自动化流程就搭好了。整个过程不需要写代码,像小朋友玩积木。
这个设计非常聪明,因为企业真正缺的根本不是大模型,而是业务逻辑的自动化。销售流程、客服流程、预约流程、售后流程,这些东西过去全塞在销售老员工和客服组长的脑子里,新人来了得手把手教好几个月。现在这些经验全被拆成节点,拖一拖拽一拽就变成程序了。
这类系统一旦成熟,会出现一个特别恐怖的现象。复制一个AI员工,成本趋近于零。真人销售培训一个月才能独立打电话,AI销售员克隆一遍只需要一分钟。这就是为什么整个AI代理行业最近越来越像工业自动化,以前自动化的是工厂流水线,现在自动化的是电话。
Pipecat让Dograh开始像个真人在跟你聊天
Dograh底层用了一个叫Pipecat的框架。这个东西最近在语音AI圈子里热度越来越高,因为它解决了一个特别要命的问题,延迟。
人类对语音停顿的敏感程度远超你的想象。你跟朋友正常聊天,停顿零点三秒,没人注意到。停顿两秒,开始觉得怪怪的。停顿五秒,你会怀疑对方是不是掉线了。停顿十秒,你已经开始对着话筒喂喂喂了。
所以整个语音AI行业现在都在拼谁延迟更低。Pipecat做的事情本质上是边听边处理,边处理边说,像同声传译那样。而不是等你把一整段话全说完了,它再开始思考,再慢悠悠回答你。后面那种体验特别像给一台老式打印机打电话,你跟它说帮我查一下天气,它吭哧吭哧响半天才回你一句今天晴。
Dograh现在能做到实时打断、网页实时通信流式语音、连续音频处理。这意味着它已经脱离了那种一问一答的语音留言机模式,进入了真正的实时对话系统。这一步非常关键,因为很多AI语音的演示视频看起来特别震撼,你自己真用起来就像在跟一个人工智障聊天。而实时语音能力,是少数几个真正能区分玩具和产品的东西。
Dograh暴露了整个AI行业正在发生的一个大变化
以前AI创业公司最喜欢卖的东西叫神秘黑盒。模型不给你看,代码不给你看,架构不给你看,你就知道有个网址可以调用一下。用户像在租一个魔法师,每个月付钱,魔法师替你干活,但魔法师脑子里怎么想的你永远不知道。
现在行业开始变了。越来越多的企业意识到,真正重要的不是你用哪个模型,因为模型随时都在变。OpenAI今天领先,Anthropic明天赶上,后天谷歌又发布一个新东西,大后天深度求索把价格打下来了。但你的工作流数据、通话系统、客户关系、自动化逻辑,这些东西才是真正的资产,谁也拿不走。
Dograh这种项目正在推动一个趋势,就是AI代理基础设施的开源化。就像Kubernetes改变了云计算,不再是你必须用哪一家的云。就像Supabase对着Firebase说你这个闭源后端我重写一个开源的。就像Ollama让大模型可以在你自己电脑上跑起来。Dograh做的事情就是对着Vapi和Retell说,你们那个按分钟收保护费的中央平台,我全给你重写成开源的。
它的意义甚至不只是帮你省钱,而是把AI电话系统的控制权,从SaaS平台手里重新夺回来。你再也不用担心明天醒来平台涨价了,也不用担心你的业务流程被绑死在别人家里。
最后说一句,这东西会让很多人睡不着觉
如果Dograh这类项目成熟了,最难受的不会是开发者,开发者反而高兴,因为终于不用被平台锁死了。最难受的是那些靠分钟税活着的语音SaaS公司。
因为Dograh会把整个行业的利润结构彻底打穿。过去这些平台的核心收入来源,说白了就是倒卖基础设施。你自己搭一套太复杂,要配服务器、配模型、配线路、配工作流,一般人搞不定,所以大家愿意交点保护费图个省心。
但现在AI基础设施正在疯狂消费级化。一键部署、拖拽式工作流、自动配置、图形化后台,复杂度被一层一层压平了。最后企业IT部门那个算账的兄弟会跳出来说,我们自己部署一年省下来的钱,够给全组发年终奖了。
一旦企业开始算这笔账,整个市场就会像当年WordPress干翻了那些收费建站SaaS一样,像Kubernetes干翻了那些私有容器平台一样,像开源数据库干翻了那些商业数据库许可证一样。AI电话系统正在从一种按分钟收费的SaaS服务,变成企业自己拥有的基础设施。而基础设施一旦开始开源,整个行业的利润天花板,通常都会开始往下掉。
Dograh现在还像个早期项目,有些地方肯定还不够顺滑。但这个方向本身,已经让很多人开始失眠了。