0
联系电话:4001-158-698EN

公司新闻 行业动态 jinnianhui今年会产品知识

jinnianhui今年会|官网- Token消耗量翻10倍才算企业转型及格线?三位产业一线大佬教你用出性价比

导语:此刻还有没到为了Token省钱的时辰。

想让年夜模子替本身卖命,一查Token账单,却有一种“更生之我为年夜模子公司打工”的错觉。

如许的案例,已经经最先于不少企业内部上演。

只管已往一年里,每一百万Token的推理成本约莫降落了75%,但成本降落的曲线远远比不外耗损量增加的斜率。

全世界最年夜的年夜模子API聚合平台OpenRouter统计数据显示,截至2026年3月,其年化Token吞吐量出现10倍增加。

与此同时,本钱市场也用脚投票——Anthropic年化收入于短短三个月里冲破300亿美元年夜关,增幅约为233%……

面临Token耗损量至少翻了一个数目级的实际,“怎样于高效利用Token的同时有用节制成本”的问题随之而来。为此,雷峰网约请3位来自财产链差别环节的一线年夜佬配合解读Token膨胀暗地里的效率帐本:

尚明栋:九章云极结合开创人兼COO ,原微软办事器高可用集群文件体系焦点开发工程师,曾经介入发布Windows 7及Windows 8,是SMB 3.0的重要拟草人之一。

肖嵘:云天励飞副总裁、首席科学家、正高级工程师,历任微软研究院高级研究员、微软必应搜刮资深软件工程师、安然产险人工智能部总司理等。

关涛:云器科技结合开创人、CTO,漫衍式体系及年夜数据平台范畴专家,曾经任职在微软云计较及企业事业部,历任阿里云计较平台事业部研究员、阿里巴巴通用计较平台MaxCompute及Dataworks卖力人、阿里巴巴及蚂蚁集团技能委员管帐算平台范畴组长、阿里云架构组年夜数据组组长。

于这场圆桌会商中,身处财产一线的年夜佬们告竣共鸣:于Agent参与出产环节的元年,成本暂时不是企业账单的第一名,真正值患上存眷的是——花于AI上的每一一分钱,是否换来了充足份量的营业价值?

顺着这个共鸣追问,一个更现实的问题浮出水面:怎样提高Token利用的性价比,让花于AI上的钱更好变现为营业价值?这恰是本场会商的焦点地点。(关在Token耗损与成本优化,作者连续追踪。接待添加作者微信Evelynn7778交流你地点企业的Token账单故事。)

Token耗损杀手:

路径过错、长上下文、模子超配

怎样把AI接入事情流,已经是当前很多企业都于体贴的问题,然而,这暗地里有很多陷阱。

起首,高耗损未必等在高价值。

当前的AI,其实不能彻底像人类同样基在情况的及时状况做出最快的选择。获得成果看似与人工不异,但AI于不经意间耗损的Token量却可能使人咋舌。

尚明栋举例,一样面临“缺少治理员权限”等通例运维场景,码农简朴输入近似sudo(Linux/Mac体系顶用在姑且获取治理员权限的指令)的号令就能够立刻进入下一步。

但年夜模子却易呈现路径冗余、方案绕远的问题,例如采用从头编译源码的繁杂方式绕过简朴权限限定,造成年夜量无效Token耗损。

其次,即便让AI做统一件事,路径选择也至关主要。

关涛曾经经碰到一名客户于对于话窗口里,要求年夜模子直接阅读一份一万行的拜候日记并举行数据统计。他指出,这类做法不仅效率低,并且获得的成果极轻易堕落。

由于年夜模子的素质是几率猜测,数学运算是其弱点。

面临这种计较使命,选择直接于对于话窗口输入文本,相称在只让AI做文字浏览理解;只有经由过程上传文件的方式,才能挪用Python等专业东西,实现真正有用的数据阐发。

有时,为了彰显年夜模子的能力,客户会事无大小地挪用最高机能的年夜模子,但这是否有须要?

尚明栋的回覆是否认的,由于简朴的使命交由机能一般的模子也能完成。肖嵘认为,可以将差别机能的年夜模子比作差别能力的学生。繁杂使命可以让能力更强的年夜学生拆解后交由中小学生来完成。后者假如于履行时碰到坚苦或者经屡次测验考试后仍没法交差,年夜学生再参与引导及兜底。

为了使命分配能切合学情,关涛还有根据性价比与不变性两个维度,进一步将差别场景划分为四个象限:

SQL代码迁徙等低性价比、高不变性的场景不合适年夜模子直接下场,应该使用年夜模子搭建专门的解决东西;AI Coding等高性价比、低不变性场景,鼓动勉励利用最佳的模子,以效率换取价值;而“双低”场景不宜强行用AI替换;“双高”场景建议先用最佳的模子把场景跑通,验证效果后再慢慢切换至性价比更优的模子。

但关涛也坦言,当前每一家年夜模子的迭代周期基本压缩至三个月,模子的能力及性价比是以变患上难以猜测。对于此,云器科技经由过程内部打造的可不雅测体系,追踪每一个模子的挪用乐成率、Token耗损状况、Tool Calling能力等指标,帮忙用户找最合适特定场景的那一款模子。

此外,对于长上下文的寻求,也是许多用户利用机能强盛的模子的底子缘故原由之一。但尚明栋指出,一旦内容过分聚集,反而致使年夜模子于处置惩罚新使命时不停反复回忆此前的对于话内容,造成Token的华侈。

关涛增补道,假如每一次对于话都携带年夜量汗青,特别上下文内容还有被重复修改时,会致使缓存掉效,对于推理成本及相应机能来讲都是巨年夜损耗。

对于此,他给出了一个简朴却有用的原则:确保上下文内容是缭绕统一使命的,如许才更切合模子最初始的设定,且不仅能晋升相应速率,还有能增长掷中缓存的几率——而办事商针对于后者所收取的输入Token用度,一般会比尺度单价低。

此外,尚明栋的团队实测数据显示,仅经由过程缓存机制这一项,就能防止至少10%的反复计较。当前行业内也已经经实现这类“外挂”,例如通义千问3.5等新一代模子,已经于架构层面自带KV Cache压缩机制。

降本的三个技能暗语:

低精度、稀少架构、数据升维

当用户可以或许连结高效的利用习气,Token账单的压力,便传导到技能层面。

从算力供应方的角度,尚明栋回忆,去年上半年自家发卖团队还有于四处兜销算力,到了本年就已经经最先诉苦“无算力可卖”。供应的欠缺及需求的年夜幅上升,倒逼算力供应方优化技能。

尚明栋分享了九章云极于算力云设置装备摆设中的工程实践——基在随机算法推理等计谋,实现PD分散、四层存储架构设计、将计较、存储与治理收集举行物理分散等方针。

详细到模子架构层面,要领之一,是尚明栋提到的MoE(混淆专家)设计:当万亿参数范围的超年夜模子内置这类架构时,每一次推理现实只需触发2至3个专家模子,这相称在只挪用了二十分之一的参数范围便可完成使命。

此外,肖嵘还有提到DeepSeek下一代旗舰模子V4可实现影象剥离的焦点架构之一Engram。

这一立异设计提供了一种扩大模子范围的全新思绪,将年夜模子的参数拆分为传统年夜模子收集的参数(例如Transformer参数、嵌入层参数)及存储“常识”的参数。前者参数范围的增年夜会显著增长计较的开消,后者则无影响。

来到硬件底层,肖嵘以英伟达Blackwell架构B300为例,指出了一个要害趋向:业界愈来愈偏向在利用低精度计较。一个较着的指标对于比是,FP4比FP8的算力吞吐量提高了约3倍。

但肖嵘也提示,低精度计较并不是“免费的午饭”——它会引入量化及反量化等一系列分外操作。假如没有硬件层面的专门加快撑持,现实收益会年夜打扣头。

另外一方面,Agent技能的普和对于年夜模子的推理延迟提出极高要求。肖嵘指出,当前年夜模子推理很难做到极高TPS(Token每一秒处置惩罚速率)的底子缘故原由于在:推理历程中需要高频拜候年夜范围模子参数以和 KV Cache,这对于内存带宽造成巨年夜压力。

以Meta的LLaMA 70B为例,假定模子参数以FP16情势存储于HBM中,经大略估算,于1000 TPS场景下,仅模子参数从HBM向计较焦点供数所对于应的带宽需求就可到达百TB/s量级,这一数目级已经远超当前主流硬件的现实带宽能力。

正因云云,英伟达才于下一代Rubin架构中引入了基在 Groq LPU 的 LPX 推理加快体系,构建GPU与LPU协同的异构推理架构。

此中,GPU 重要卖力高吞吐的预填充与留意力计较,而LPU则针对于延迟敏感的解码路径举行加快。

此外,LPU还有采用高带宽、低延迟的片上 SRAM 以和数据流履行架构,显著降低访存开消,晋升单次推理相应速率,并提高单元时间内的Token天生密度。(更多算力与算法层面的技能优化,接待添加作者微信Evelynn7778切磋)

而对于在不具有革新算法及算力能力的中小企业而言,数据是撬动AI能力最实际的支点。

关涛地点的云器科技对峙“数据——信息——常识”三级数据系统: 起首确保当前企业的数据可以或许被AI所用,再将企业的数据转化为可同享的常识库。于这个历程中,同时搭建好反馈链路,引领企业AI化转型。

每一人每个月1000美元:

Token经济学的第一笔账

当Token使用率尽可能提高以后,从Token经济学的角度出发,企业应该怎样对待员工的“账单”?

三位佳宾对于在于Token上的预算掌握已经有开端的判定。

肖嵘吐露,一旦处置惩罚稍显繁杂的项目,150美元可能刹时见底。是以,云天励飞给研发职员每一人每个月配备了必然额度的AI用度。

他认为这笔投入极为划算。由于比拟研发职员动辄三四十万甚至百万年薪,Token成本只是人力成本的零头。

关涛也印证了这一投入逻辑:当前云器科技没有设置Token耗损的上限,员工每个月于AI辅助开发上的花消约500至1000美元,今朝已经有约20%的员工能做到高效使用。

作为算力供给商,九章云极自身的员工外部Token破费月均成本也已经到达2000元。

于肖嵘看来,今朝仍处在年夜模子利用的初期阶段,远未到达抱负的效率峰值,企业还有没到“卷成本”的阶段,现在应周全、斗胆地拥抱年夜模子。

固然,这其实不象征着对于成本任其自然。肖嵘建议,当年夜模子利用真正进入普和阶段后,于面临怎样摊薄时间成本的问题时,企业可使用晚间等低负载时段错峰提交使命,或者经由过程多Agent并行履行使命来晋升效率。

此外,定阅制也是一种选择。不外尚明栋提示,有些时辰定阅制只是看起来划算,由于一旦年夜模子办事负载不不变,性价比反而可能不如按量付费。他夸大,企业必然要从营业价值反推Token耗损的性价比。

关涛指出,当前业界主流的耗损量是此前的10倍,若没有到达这个增加数字,企业需要反思于AI转型上是否已经经掉队;然而,假如跨越了,就要当真审阅成本布局。

他以一个极为微小的动作为例:年夜模子每一次哪怕是对于“Hello”如许简朴的交互举行答复,暗地里都需要一次API挪用。而单次接入成本约5毛钱,当每一个API都计费、用户高频挪用时,这笔原本不起眼的花消刹时被数目级放年夜。

基在此,就不难理解为何当下“养龙虾”这件事能及“停业”挂钩。关涛团队实测发明,根据尺度OpenClaw的利用习气,每一人每个月的API破费平均值高达400~500元。

这象征着,为了养一个数字两全,光挪用API的开消就已经盘踞每一人月可支配收入的约10%。

除了了API的挪用频率,肖嵘指出,用户详细利用的年夜模子也于影响Token账单。(利用侧还有有哪些因素影响Token耗损,接待添加作者微信Evelynn7778交流)

他注释道,参数范围越年夜,年夜模子处置惩罚繁杂使命的能力越强,所能承载的上下文长度也随之增长,是以所耗损的Token数目就越多,对于应的成本天然水长船高。

此外,即便处置惩罚同样的Token数目,参数越年夜的模子暗地里触及的计较量也越年夜,这也是中美年夜模子之间价格迥异的泉源。

肖嵘指出,中国模子偏向在采用极度的稀少化及轻量化设计,于年夜多走免费线路的环境下,力图用只管即便少的练习及推理成本实现较强的智能;而美国企业的模子于参数范围上则要激进患上多,价格天然也超出跨越一截。

出在持久成本、低延迟或者数据安全的考量,肖嵘认为企业还有可以采用当地部署。他先容,最新的模子量化压缩技能可以于精度无损的环境下,把模子参数及KV cache参数别离压缩至4比特及3.5比特,从而支撑百亿范围的年夜模子于当地运行。

而详细到硬件选择,值患上一提的是近来因OpenClaw卖爆的Mac mini。它之以是备受青睐,恰是由于其同一内存及高机能的M系列芯片,以和4000多块钱的亲平易近成本。

有了Token,单一步伐员可掌控的代码体量跃升十倍,演讲者长达两周的资料预备时间被年夜幅压缩,十几岁的孩子可以超前进修竞赛常识、写步伐优化游戏代办署理延迟……

然而,Token账单的凹凸,素质是API挪用频次、模子选型与技能线路配合作用的成果。不外,比起省钱,现阶段更主要的,也许是成立一条将Token变现为营业价值的通路。

如下是这次圆桌会商的出色分享,雷峰网举行了不改原意的编纂收拾:

谈Token成本和耗损近况:用量激增10倍,账单烧不起

雷峰网·胡敏:从去年最先研究怎么用AI,到本年用上小龙虾,我本身最年夜的感触感染是Token耗损真的有点“烧不起”。想问问三位佳宾,有无感触感染到Token耗损量的变化?以和让你们比力“肉疼”的案例?

尚明栋:由于咱们既是算力提供者,也是消纳者,以是我从两个视角出发来谈。

从供需曲线看,去年行业还有于摸索算力需求的落地场景,本年高质量算力资源已经成为驱动AI立异的焦点战略资产,需求出现发作式增加。

从消纳端看,我认为第一个Killer APP可能就是AI Coding。去年年末Claude 4.5出来后,代码天生质量已经经能支撑“一人公司”。一个资深步伐员本来能治理的代码上限年夜概2万~3万行,此刻借助AI Coding可以轻松冲破十几万行。

咱们公司内部也年夜量利用,好比每一晚做一次全代码审核,包括静态代码的扫描、端口的扫描、安全计谋扫描,代码量几百万行,一次扫描耗损六七万万Token——但折算成钱,成本实在其实不年夜。

但也有“坏例子”:好比用人工智能去做代码天生的时辰,装Homebrew碰到权限正告,AI不懂用sudo绕过,反而建议你去下载开源代码从头编译,这一步可能耗损几百万甚至上万万Token,而现实上人工用一个简朴号令就能跳过。这申明需要人工须要参与,不克不及全数交给AI决议计划。

关涛:我给各人分享两个数字。第一个是咱们接主流模子时做的试验:测试API是否畅达,说一句“hello”,模子回一句“我能帮你做甚么”——这一个API挪用就要5毛钱。

第二,假如用尺度版的OpenClaw(未经优化),每一人每个月的API耗损平均于400~500元。对于比一下,我国人均月可支配收入也就4000多人平易近币,养一个“龙虾”要花失十分之一,这个账单确凿夸张。

但也有两个趋向:一是每一百万Token成本从去年到本年年夜概降了75%,从10美元降到2美元摆布;二是OpenRouter流量增加约10倍,Anthropic收入增加14倍。成本降了3~4倍,但用量增加了十几倍。以是企业假如觉得AI账单于快速增加,一点也不希奇。

肖嵘:咱们公司给研发职员每一人配了每个月较高额度的quota。为何高?由于一个繁杂使命跑下来,挪用API搜刮阐发下来,150美元可能就没了。

Token耗损将来会增长患上更厉害——不只Coding,协同办公范畴耗损也很可怕。之前做PPT可能需要两周,还有要多人帮助。此刻我把框架搭好,告诉年夜模子我的不雅点,让它批判或者接管,多个Agent同时跑,一天就能产出70多页专业PPT。

再说个例子,咱们董事长陈宁博士的初中生儿子,他把书丢给年夜模子,让模子用更形象、交互的方式注释,还有天生动画,两天就学完了一本三角函数教材。他玩美国原神收集延迟,找年夜模子聊完天,模子直接写步伐优化失了。以是没有科班配景的人,借助AI能做出许多想象不到的工作。

Token成本上升的缘故原由我总结一下:模子越年夜越好用,上下文越长效果越较着,这两个维度都让Token成本高涨。差别上下文的成本基本呈线性增加。为了办事效率,好比写PPT开十几个Agent也患上跑20分钟,最惬意的是1分钟出成果。以是另外一个趋向是:为了出产效率,成本加倍也愿意。

谈Token降本计谋:不是所有事都该AI干,分层路由+上下文精简是要害

雷峰网·胡敏:那末企业到底怎么省Token?先从利用侧聊起,有无实操要领或者手册?

尚明栋:省Token起首要弄清晰Token花于哪,才能有的放矢。从企业算账角度,Token耗损量及效率晋升、价值增值要成立映照瓜葛。起首人群于扩展,最早从技能职员扩大到全员利用,这是正向的,但要防止华侈:

第一,模子滥用,不是所有使命都需要万亿参数的年夜模子,简朴查询用小模子便可;

第二,防止上下文聚集——汗青对于话及检索成果重复投喂,每一轮都于反复付出成本;

第三,优化低效事情流,好比适才阿谁Homebrew的例子,人工一个sudo号令就能解决,AI却绕了一年夜圈。

从利用者角度,提醒词要短、清楚,能走法则化流程的就不让年夜模子做;节制输出长度,防止无效重试。

从技能角度,可以做模子分层路由、KV缓存(至少能防止10%以上的反复计较),以和优化Agent布局削减挪用次数、降低掉败率。

肖嵘:我增补四个标的目的:利用侧、平台侧、年夜模子侧、硬件侧都有优化空间。

利用侧最简朴的要领是“分层”:把模子能力分成年夜学生、中学生、小学生。让最强模子(年夜学生)做使命拆解及计划,中小模子(中学生及小学生)履行详细使命,效果欠好再让年夜模子引导或者亲自上手。总体效果差未几,但成本年夜幅降落。

别的,当地部署7B~14B的小模子也是省钱途径,好比用Mac mini(4000多人平易近币)就能跑不错的模子。最新技能如Google的TurboQuant,可以把KV Cache压缩到1/4或者1/5,联合模子的低精器量化技能,当地部署愈来愈可行。

还有有,节制上下文——不相干的汗青对于话可以压缩或者另开话题。

末了,必然要有本身的提醒词模板,就像公司给新员工发员工手册同样,把常见场景的prompt固化下来,能省年夜量反复耗损。会用年夜模子的人一小我私家能干5小我私家的活,不同就于这。

关涛:我举三个可防止Token华侈的例子:

第一,用法过错——不是所有工作都应该交给AI,好比把一万行拜候日记直接丢给AI做统计,又慢又错。准确做法是让AI写Python步伐来处置惩罚,或者者把数据放于专业体系里用东西做。

第二,上下文信息不足或者禁绝确——好比问“上个月GMV增加缘故原由”,数据库里有几十张表都含GMV字段,模子不知道用哪张,再贵的模子也解决不了。这是数据问题,不是模子问题。

第三,上下文过度痴肥——每一次对于话都携带年夜量汗青,不仅华侈Token还有影响模子效果。尤其是当Context被修自新、不切合模子设计时,会致使缓存掉效,价格及机能都遭到危险。要包管Context充足切确,只管即便于统一Session内追加,如许更切合模子设计,能年夜幅晋升速率、节省Token。

谈模子采购与分层:性价比不是看单价,而是看“单元营业成果成本”

雷峰网(公家号:雷峰网)·胡敏:从采购侧呢?模子选型、计费方式、采办渠道上,各人有甚么心患上或者踩过甚么坑?

尚明栋:采购不克不及只看单价,要看单元营业成果成本。自制的模子假如效果不不变、需要屡次重试、人工复核,总成本反而更高。要按照现实运用场景做模子分层及动态路由,简朴使命给小模子,繁杂有计划的给年夜模子。

计费方式上,定阅制看起来划算,但若负载不不变,综合成本未必如意。还有要思量数据安全、资源不变等综合因素,终极要回到营业价值来反推性价比。差别部分、差别场景差异很年夜,需要有专门的小团队来赋能。

肖嵘:我彻底赞成,今朝Token是出产力东西,孕育发生的效益弘远在成本,建议只管即便采用切合需求的模子,成本不是最主要。等各人都用上年夜模子、效率都上来了,再思量降本。此刻社会厘革还有没到卷成本的时辰,各人都用上年夜模子后,那时降本就很主要了。

降本的详细要领:一是模子分层(年夜学生/中学生/小学生);二是使用波峰波谷——离线使命放于晚上提交,成本更低;三是定阅制包管用量。

关涛:咱们有个要领论:把场景分成两个维度——高性价比/低性价比,以和不变确定性/摸索不确定性。

高性价比+不确定的场景(好比焦点代码开发),直接用最佳的模子,由于比拟人力成本,Token成本眇乎小哉;

高性价比+确定性的场景,先用好模子跑通,再慢慢降低模子能力,找到性价比均衡点;

这需要两个体系撑持:一个AI Gateway(矫捷切换模子),一个可不雅测体系(监控乐成率、Token耗损等)。

低性价比+确定场景,用模子构建东西形成流水线,而不是每一次都靠模子;

低性价比+不确定场景:凡是用不起来,需要摸索其他方式某人工补位;

此刻每一家模子基本上每一三个月就迭代一次,不论是美国还有是中国,隔几个月就会有一个新模子到达当前SOTA程度。以是很难说哪一个模子必然最佳——有的性价比好一点,有的能力强一点。可能各人独一的共鸣是从Coding视角看,Anthropic的模子更好一些。剩下的,甚至包括最新的视频天生模子,此刻很难讲谁是第一位。

以是咱们凡是建议企业接一个或者本身做一个AI Gateway,可以或许矫捷切换模子。这比此刻死磕某一个模子更合理,究竟整个模子迭代还有处于很是高速的成长期。

谈供应侧优化:从平台、模子、硬件、数据四个层面“卷”成本

雷峰网·胡敏:三位都身处AI财产链,你们各从容做哪些事来帮企业降Token成本?

尚明栋:作为算力供应方,咱们于工程化上做了许多:算力云设置装备摆设的选型配置、PD分散架构、四层存储架构、计较存储收集分散、随机算法推理优化等,终极晋升Token产出率。

同时咱们也于做模子动态路由,但焦点不雅点是:不要只体贴Token贵不贵,要体贴Token花患上值不值。这需要把Token成本从技能问题酿成产物、采购、财政配合治理的谋划指标。要成立评估系统,看投入是否值患上。

别的,AI能力要匹配构造治理厘革,这放年夜了人与人之间的差距——有人效率晋升3~5倍,有人只有30%,团队里会呈现“木桶道理”。此刻团队更扁平化,开发工程师酿成全栈工程师,一专多能。这不只是东西问题,更是团队构造治理方式的厘革。

肖嵘:从平台层、模子层、硬件层三个条理来讲:

平台层:做模子分层调理、影象压缩、使命反思总结,让“养龙虾”的历程更智能。

模子层:经由过程更稀少的架构(如MoE)、新的留意力机制(如线性留意力、混淆留意力),以和近似DeepSeek的Engram外挂心忆,让模子更快、更智慧、常识面更广。

硬件层:低精度计较(英伟达Blackwell引入FP4,精度降8倍但模子精度不跌)、协处置惩罚器(如Groq的方案,把参数直接放于芯片SRAM里,实现极低时延、高TPS)。这些标的目的都于让Token成本连续降落。

关涛:咱们更侧重数据侧。AI三要素包括算法、算力、数据。对于年夜大都企业来讲,前二者凡是是买来的,数据是企业晋升AI能力的要害。咱们做三件事:

第一,让企业现有数据平台能被AI用好——做语义层(Semantic Layer)、MCP毗连等,让布局化数据成为AI的Ground Truth;

第二,帮企业构建同一、可同享的常识库——把数据进级为信息,信息进级为常识,防止每一个Agent都反复沉淀影象及Skill;

第三,成立反馈链路——经由过程数据平台收罗阐发,让企业看清晰AI的投入产出比,并能矫捷调解模子、Prompt、上下文。

作者连续存眷AI算力芯片上下流,更多信息可添加作者微信Evelynn7778交流。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

-jinnianhui今年会|官网
1210
在线客服
在线客服

Maggie

微信咨询

黎小姐