欢迎光临北京软件和信息服务业协会官方网站
技术时间 | HAMi重要贡献者:Token访问量暴涨时代,提升算力效率的底层逻辑
发布日期:2026-05-21    来源:范式PhancyGroup    分享到:

进入2026,Token已经进入了访问量指数级暴涨的时代,但行业面临的问题也很刺眼:想要支撑如此暴涨的token需求,现在的算力根本不够用。

更考验企业的是,“我们需要基于业务需求,更高效地把算力投资拿回来。”

一张昂贵的GPU动辄数十万元,加上异构算力难以统一管理,究竟如何令这些算力集群高效地适配业务场景,产生更多高性价比的token?

范式孵化的HAMi给出了自己的答案。

49c532f0-4cae-4ca1-8ab7-eaa0ff61ccc3.png

近日,HAMi重要贡献者、睿思智联资深技术专家沈鸥进行了主题为“Token时代企业如何进行AI基础设施建设”的分享。沈鸥表示:HAMi 的商业化版本 Rise,已经在成功在央国企场景中实现了4倍的运行效率提升。

沈鸥提到,DeepSeek在中国发布以后,很多企业已经把大模型深入到企业的各个环节。但同时企业也在面临着两个重大挑战:

第一,Token消耗量成倍激增。根据中国发展高层论坛及国家数据局2026年3月发布的数据,中国日均Token调用量已突破140万亿,IDC中国追踪的企业级Token年度总消耗量过去一年也增长了近20倍。

第二,2026年AI Agent进入规模化应用元年,海量Agent协同对基础架构提出全新挑战。

如何解决?作为HAMi的商业化版本,Rise 给出的“算力管理、算力调度、模型服务、AI应用”的四层策略,可以说给业内树立了一整套“AI智算管理平台”的样板答案。

底层:统一管理英伟达及昇腾、昆仑芯等国产GPU,实现异构资源池化;

第二层:通过GPU池化、虚拟化及显存切分/超分技术,结合拓扑感知、资源感知、负载感知、优先级感知的四重调度策略,提升单卡利用率;

第三层:提供开箱即用的开发环境、模型仓库(支持5万种模型)、推理服务监控及AI网关(路由/限流);

顶层:按卡时或Token进行计量计费,帮助企业核算ROI。

看不懂这些技术词汇?也没关系,沈鸥分享中还给出了一个帮企业成功实现AI算力提效的最佳Case。

该案例中,一家央国企同时拥有之前采买的英伟达与华为昇腾服务器,面临资源孤岛和利用率低下的问题。

团队通过显存/算力切分、超分(如临时“冻结”空闲模型释放显存)等技术,成功跑通了三个典型场景。

一、大小模型混跑:将7B路由、14B总结与向量模型共驻一张卡;

二、投机解码:7B草稿模型与72B目标模型共存同一物理卡,提升预判效率;

三、装箱算法:合并显存碎片以运行大显存需求模型。

最终客户内部评估整体运行效率提升了4倍,投资回报率得到有效保障。

你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.