星环科技的华丽跃迁,从Data Infra到AI Infra
2022年10月18日,有着“国产大数据基础软件股”之称的星环科技成功上市,彼时“大数据”是星环科技身上最醒目的标签。今天这个标签显然已经不能准确定位星环科技。
在过去的一年多里,生成式AI驱动人工智能市场爆发式增长,星环科技顺势而为,完成了从数据基础设施(Data Infra)供应商向AI基础设施(AI Infra)供应商的升级。在不久前星环科技主办的2024向星力·未来数据技术峰会上,星环科技创始人、CEO孙元浩宣布,星环科技的定位已经从Data Infra进一步延伸到AI Infra,将致力于为企业客户打造AI基础设施,帮助企业快速建立行业大模型,快速使用AIGC。
在本次大会上,星环科技发布了最新AI基础设施产品Transwarp Knowledge Hub星环知识平台,并推出一站式多场景语料开发工具Transwarp Corpus Studio、大模型运营平台Transwarp Sophon LLMOps等多个产品。另外,星环科技还发布了企业版、AI PC版企业级垂直领域问答产品无涯·问知。无涯·问知公有云服务也正式发布,首批邀请用户已经可以在线测试。

星环科技创始人、CEO孙元浩
01 向AI基础设施的跃迁
2022年11月问世的ChatGPT成功地引爆了人们对生成式AI的热情,生成式AI热潮迅速席卷各个行业,众多企业纷纷投身于对大模型和生成式AI的追逐之中。无论是大模型还是算力领域均飞速发展,技术、产品以及应用不断创新和迭代。
根据IDC的研究数据,在全球市场,有55%的企业已经在大规模地投资生成式AI和大模型,剩下的34%也在进行相关的POC试验;而在亚太市场,已经投资和正在进行试验的比例更高,达到了95%,超过全球的平均水平。
不过,无论是亚洲还是全球市场,现阶段企业对AIGC整体投资规模都不大,投资也集中在大模型技术的开发中,整个市场还处于相对早期的阶段。与此同时,在大模型和生成式AI技术落地也面临不少挑战。
IDC中国副总裁钟振山在主题演讲时表示,IDC的调研结果显示,除了人才和资金等方面的挑战之外,在数据基础设施建设方面普遍存在不足,缺乏高效的生成式AI应用开发的工具,缺少知识库的支撑和统一的数据管理底座等。
“企业如何构建好数据基础设施,使用好企业内部已有的数据资源,让大模型这项技术可以更好地理解企业自身的业务和运营的特点,将成为大模型落地的关键因素。同时,搭建一个现代化的成熟知识管理体系也成为决定企业是否能够成功使用这项技术的关键因素。”钟振山说。

IDC中国副总裁钟振山
实际上,IDC的研究结论与星环科技所感受到的市场需求非常一致,这也是星环科技从数据基础设施向AI基础设施延伸的核心原因。
“过去一年我们帮着企业客户落地大模型的时候,碰到很多挑战。我们发现每个应用都要开发很久,重复的工作有很多。星环科技希望通过自己的工作把整套AI基础设施给大家建好,以后开发应用进度就会明显加快。”孙元浩在接受采访时表示。
基于这样的洞察,星环科技通过自主研发打造出了一站式企业级大模型生产及应用全流程开发工具链。这套完整的AI Infra工具集覆盖语料开发和管理、大模型训练与持续提升、多模态知识工程、多模知识存储与服务、原生AI应用构建编排和应用服务等重要阶段,提供提示词工程、检索增强、智能体构建等大模型应用快速构建和提升、模型推理优化、模型安全和持续提升技术。
02 将大模型从文科生变成理科生
众所周知,过去的一年大模型市场异常火爆,市场上出现大量的大模型,业界称之为“百模大战”。大模型也是星环科技最初进入生成式AI领域的发力点,早在去年就推出了自己的大模型无涯Infinity。
不过,一直耕耘在数据领域的星环科技对企业的需求有着深入了解,深知这些通用大模型距离用户需求的距离:虽然通用大模型能完成普通写作,能文生图、文生视频,但无法让它回答一些严肃的问题。
“这些通用大模型相当于文科生,我们的目标是要把大模型训练成理科生,让它能懂得自然科学的具体领域、具体学科,能帮助做分析、解答具体问题,能真正在企业中落地。”孙元浩说。
基于这样的想法,星环科技针对无涯大模型进行了大量优化工作,提供了更多高质量的语料,特别是增加了很多行业的语料,包括金融、政务、交通、制造,并重新进行训练。比如,基于星环科技在数据库上的知识积累,增强了大模型对数据库的理解,可以用自然语言与数据库交互,准确度超过90%,在同行中处于领先地位。
同时,星环科技还将检索增强生成技术(RAG)加入其中,把企业内部数据知识化,然后再结合大模型进一步提高它的准确度。比如,增加债券数据加上债券类行业知识的知识库,再训练大模型可以达到99%的准确度。

星环科技知识检索工具无涯·问知有多个版本
基于这些探索,星环科技在无涯大模型的基础上面向不同专业知识领域推出几种细分的AI原生应用,包括无涯·问知、无涯·问数、无涯·金融、无涯·工程等。
其中,无涯·问知是一款基于星环大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品。其充分利用了星环科技自研大模型底座的自动化知识工程特性,使其在处理和分析数据方面具有显著的优势,允许用户上传文档、表格、图片等多源数据,并支持与外部数据源的对接,使用户能够构建属于自己的专属领域大模型。这一创新功能极大地扩展了模型的应用范围和深度,用户可基于自身私域知识库进行更为个性化和深入的数据分析。
无涯·问知现在有多种版本,除了企业私有化部署的版本外还推出了无涯·问知的AI PC版本,可在搭载英特尔新一代CPU的AI PC上基于集成显卡和NPU流畅运行。另外,星环科技无涯·问知公有云服务也已经对外开放公测。
而无涯·问数有些类似传统BI,但支持自然语言交互。无涯·问数基于星环数据分析大模型,并结合数据分析主体、指标、标签设计、数据开发和治理,形成了从自然语言转数据查询语言,并返回数据表或数据图表的完整流程,能提供分析仪表盘和智能问数能力,让决策者/管理者以自然语言提问快速自助获取目标数据;让数据分析人员实现对话即分析。
03 打造高效、智能的AI基础设施
星环科技的AI Infra工具集Transwarp Knowledge Hub(TKH)是其在优化和训练无涯大模型、打造无涯·问知、无涯·问数、无涯·金融、无涯·工程等一列原生AI应用的过程中逐步沉淀下来的。
TKH为企业提供了一个全面、高效、智能的数据处理和知识管理解决方案,可以实现企业内部所有资料知识化的目标,并且可以统管企业Al Infra算力、语料、模型和应用,助力企业打造安全可控AI Infra,帮助企业快速使用AIGC。
“TKH集成了先进的语料开发与管理、大模型训练与优化、多模态知识工程、知识存储与检索、原生AI应用开发等全栈能力,为用户打通从数据到模型再到应用的完整AI开发链条,能加速人工智能在各行各业的规模化应用。”孙元浩说。

TKH集成了原生AI应用开发的全栈能力
在星环科技的AI Infra工具中语料加工工具Transwarp Corpous Sudio(TCS)非常关键,也是该工具集的特色之一。
“我们发现,在基于大模型的应用构建过程中,工作量最大的就是语料准备。而且增加语料、特别是高质量的数据集也是提高大模型准确度、解决大模型幻觉的最有效的方案,更是体现竞争优势和天然壁垒的地方。”孙元浩在演讲时表示。
而星环科技的一站式多场景语料平台TCS覆盖了语料获取、清洗、加工、治理、应用和管理的全生命周期,具有多种灵活的采集和构建方式,能分布式地高效处理海量语料。TCS支持20+主流文档格式、数据化学公式、复杂语料处理、语料自动标注及筛选、多视角体系化资产编目和数据治理等
星环TCS拥有全面、多维、精细、增强、资产等5大优势,是一个功能全面、易用高效、安全可靠的语料开发利器,能够极大提升语料开发效率,助力企业或机构高质量地构建大模型及其应用。
TKH中的星环图谱构建工具Transwarp Knowledge Studio for LLM(TKS)也值得一提。TKS是一套全流程、端到端的知识图谱构建工具集,涵盖了知识模型定义、多源异构数据接入、概念与物理数据映射、多元化知识的抽取融合、全自动知识构建、图谱综合查询等功能,能够帮助政务、工业、能源等多领域客户高效构建领域知识体系,并提供智能应用的场景定制化和一站式解决方案。
“知识图谱构建是非常困难的,这也是这些年并没有太大发展的原因。现在有了大模型以后,一是可以用大模型帮助整理知识图谱;二是可以直接用自然语言检索,加速了知识图谱的应用普及。”孙元浩介绍。
另外,TKH还包括有大模型运营平台Transwarp Sophon LLMOps,它提供一站式企业级大模型生产及应用全流程开发工具链,助力企业完成从预训练到微调,到强化学习,到持续模型评估的全生命周期,让每个企业都能构建自己的专属大模型。基本上,Sophon LLMOps一个平台就可以解决企业在大模型时代语料、模型、应用三类资产的持续积累和加速迭代。
“现阶段大模型能干的基本通过这些工具都能完成,所以我们称为AI基础设施。以前我们是做数据基础设施,现在从数据基础设施过渡到AI基础设施。根本原因在于,客户对数据基础设施的需求发生了变化,它们都在向智能化转型,数据平台要为AI提供支持。”孙元浩解释说。
04 持续升级数据基础设施
很显然,过去2年来星环科技在大模型和AI Infra方面投入了大量的精力,从而打造出了完整的AI Infra工具。星环科技在推出全新的AI Infra的同时,也在持续完善Data Infra产品与服务。
在今年的大会上,星环科技发布多款Data Infra产品的更新,具体包括:
大数据云平台TDC 5.0:将原来的多个TDH集群统一纳管,统管多个TDH集群,形成物理上分散、逻辑上统一的企业级一体化大数据平台。
分布式交易型数据库KunDB 4.0:高可用能力与Oracle兼容性提升,支持跨系统多租户部署。
大数据开发工具TDS 4.0:增加了数据实时同步、数据入湖向导、智能化数据资产盘点、数据资产门户、数据服务编排等功能。
大数据安全与隐私保护工具软件Transwarp Defensor:星环科技自主研发的大数据安全与隐私保护安全管理平台,致力于帮助企业建设以数据为中心的数据安全防护体系。
数据要素流通平台Transwarp Navier:通过提供隐私计算环境,使得数据供需双方可以进行安全的数据交易。

Transwarp Data Hub为AI原生应用的开发提供强力支持
值得一提的是,Data Infra和AI Infra是相关联的,Data Infra其实是AI Infra的基石,这也是星环科技进军AI Infra的底气。比如,基于Transwarp Data Hub for LLM知识管理平台的多模型统一技术架构,支持关系型数据、向量数据、全文检索、图数据、时序数据等的统一存储管理。其背后就是因为实现了四个一体化,即湖仓集一体化、多模型处理一体化、历史数据与实时数据处理一体化、本地集群和云平台一体化。而这些能力是建立在星环科技的大数据基础平台TDH、分布式向量数据库Hippo以及分布式图数据库StellarDB和分布式分析数据库ArgoDB以及时序数据库Timerlyre之上。因此,持续升级Data Infra不只是满足数据基础设施用户的需求,也是为了更好地支持AI应用的需求。
05 结束语
毫无疑问,大模型所代表的生成式AI技术正以前所未有的速度融入企业运营的各个领域和环节。然而,这一技术的落地实施并非仅仅需要大模型本身。实际上,大模型、RAG与Agent的背后需要一系列强大的开发、管理和运维工具作为支撑,这正是星环科技所强调的AI Infra的核心所在。这是一项繁琐而复杂的任务,但其重要性不容忽视。
星环科技凭借其精心研发的AI Infra工具及Data Infra产品与服务,为企业和机构提供了一套全面、便捷且安全的解决方案。这些工具不仅助力企业高效构建和管理知识库,还加速了大模型的落地部署过程,极大地提升了数据处理、价值挖掘和业务决策的效率。借助星环科技的AI Infra工具,企业能够更加灵活地应对市场变化,实现业务创新和增长。


