技术时间 | HAMi重要贡献者:Token访问量暴涨时代,提升算力效率的底层逻辑
进入2026,Token已经进入了访问量指数级暴涨的时代,但行业面临的问题也很刺眼:想要支撑如此暴涨的token需求,现在的算力根本不够用。
更考验企业的是,“我们需要基于业务需求,更高效地把算力投资拿回来。”
一张昂贵的GPU动辄数十万元,加上异构算力难以统一管理,究竟如何令这些算力集群高效地适配业务场景,产生更多高性价比的token?
范式孵化的HAMi给出了自己的答案。

近日,HAMi重要贡献者、睿思智联资深技术专家沈鸥进行了主题为“Token时代企业如何进行AI基础设施建设”的分享。沈鸥表示:HAMi 的商业化版本 Rise,已经在成功在央国企场景中实现了4倍的运行效率提升。
沈鸥提到,DeepSeek在中国发布以后,很多企业已经把大模型深入到企业的各个环节。但同时企业也在面临着两个重大挑战:
第一,Token消耗量成倍激增。根据中国发展高层论坛及国家数据局2026年3月发布的数据,中国日均Token调用量已突破140万亿,IDC中国追踪的企业级Token年度总消耗量过去一年也增长了近20倍。
第二,2026年AI Agent进入规模化应用元年,海量Agent协同对基础架构提出全新挑战。
如何解决?作为HAMi的商业化版本,Rise 给出的“算力管理、算力调度、模型服务、AI应用”的四层策略,可以说给业内树立了一整套“AI智算管理平台”的样板答案。
底层:统一管理英伟达及昇腾、昆仑芯等国产GPU,实现异构资源池化;
第二层:通过GPU池化、虚拟化及显存切分/超分技术,结合拓扑感知、资源感知、负载感知、优先级感知的四重调度策略,提升单卡利用率;
第三层:提供开箱即用的开发环境、模型仓库(支持5万种模型)、推理服务监控及AI网关(路由/限流);
顶层:按卡时或Token进行计量计费,帮助企业核算ROI。
看不懂这些技术词汇?也没关系,沈鸥分享中还给出了一个帮企业成功实现AI算力提效的最佳Case。
该案例中,一家央国企同时拥有之前采买的英伟达与华为昇腾服务器,面临资源孤岛和利用率低下的问题。
团队通过显存/算力切分、超分(如临时“冻结”空闲模型释放显存)等技术,成功跑通了三个典型场景。
一、大小模型混跑:将7B路由、14B总结与向量模型共驻一张卡;
二、投机解码:7B草稿模型与72B目标模型共存同一物理卡,提升预判效率;
三、装箱算法:合并显存碎片以运行大显存需求模型。
最终客户内部评估整体运行效率提升了4倍,投资回报率得到有效保障。


