技术时间 | HAMi重要贡献者：Token访问量暴涨时代，提升算力效率的底层逻辑

发布日期：2026-05-21 来源：范式PhancyGroup 分享到：

进入2026，Token已经进入了访问量指数级暴涨的时代，但行业面临的问题也很刺眼：想要支撑如此暴涨的token需求，现在的算力根本不够用。

更考验企业的是，“我们需要基于业务需求，更高效地把算力投资拿回来。”

一张昂贵的GPU动辄数十万元，加上异构算力难以统一管理，究竟如何令这些算力集群高效地适配业务场景，产生更多高性价比的token？

范式孵化的HAMi给出了自己的答案。

近日，HAMi重要贡献者、睿思智联资深技术专家沈鸥进行了主题为“Token时代企业如何进行AI基础设施建设”的分享。沈鸥表示：HAMi 的商业化版本 Rise，已经在成功在央国企场景中实现了4倍的运行效率提升。

沈鸥提到，DeepSeek在中国发布以后，很多企业已经把大模型深入到企业的各个环节。但同时企业也在面临着两个重大挑战：

第一，Token消耗量成倍激增。根据中国发展高层论坛及国家数据局2026年3月发布的数据，中国日均Token调用量已突破140万亿，IDC中国追踪的企业级Token年度总消耗量过去一年也增长了近20倍。

第二，2026年AI Agent进入规模化应用元年，海量Agent协同对基础架构提出全新挑战。

如何解决？作为HAMi的商业化版本，Rise 给出的“算力管理、算力调度、模型服务、AI应用”的四层策略，可以说给业内树立了一整套“AI智算管理平台”的样板答案。

底层：统一管理英伟达及昇腾、昆仑芯等国产GPU，实现异构资源池化；

第二层：通过GPU池化、虚拟化及显存切分/超分技术，结合拓扑感知、资源感知、负载感知、优先级感知的四重调度策略，提升单卡利用率；

第三层：提供开箱即用的开发环境、模型仓库（支持5万种模型）、推理服务监控及AI网关（路由/限流）；

顶层：按卡时或Token进行计量计费，帮助企业核算ROI。

看不懂这些技术词汇？也没关系，沈鸥分享中还给出了一个帮企业成功实现AI算力提效的最佳Case。

该案例中，一家央国企同时拥有之前采买的英伟达与华为昇腾服务器，面临资源孤岛和利用率低下的问题。

团队通过显存/算力切分、超分（如临时“冻结”空闲模型释放显存）等技术，成功跑通了三个典型场景。

一、大小模型混跑：将7B路由、14B总结与向量模型共驻一张卡；

二、投机解码：7B草稿模型与72B目标模型共存同一物理卡，提升预判效率；

三、装箱算法：合并显存碎片以运行大显存需求模型。

最终客户内部评估整体运行效率提升了4倍，投资回报率得到有效保障。