“新型国家语料库资源采集基地”建设启动
2026年1月23日,中国语言智能研究中心与中华书局古联公司在北京签署《新型国家语料库资源采集联合建设战略合作意向书》,双方将共同建设“新型国家语料库资源采集基地”。这是落实《教育强国建设规划纲要(2024—2035年)》提出的“建设新型国家语料库”的战略部署的重要举措。

中国语言智能研究中心与中华书局古联公司签约仪式
中国语言智能研究中心与中华书局古联公司签约共建“新型国家语料库资源采集基地”,旨在整合中国语言智能研究中心在规范标准、语言智能技术方面的平台优势,与中华书局古联公司在中华典籍整理与数字化出版领域的权威资源和深厚积淀,为实质性、系统性推进“国家新型语料库”建设,提供高质量、大规模的中华优秀传统文化数字化资源支撑。 签约仪式后,举办了“中华优秀人文基因挖掘与智能化多模态实现策略研讨会”,来自学术研究、文化出版、新闻传播等领域专家参与研讨。 中华优秀人文基因挖掘与智能化多模态实现策略研讨会专家代表
研讨会上,新型国家语料库项目负责人、中国语言智能研究中心主任周建设教授系统阐释了构建“新型国家语料库·数字化国家文明谱系(国谱)”的必要性与战略愿景。他指出,“国谱”的主要目标是建成一个承载中华文明基因的动态、立体、可运算的“数字母体”,推动实现“国家有谱、治国有数、强国有本”。他强调,在日产十万亿+token的大语言模型时代,AI追求符号链接的自洽与人类追求语义表达的本真存在难以割舍的纠缠,我们应当确保核心领域底层数据的规范纯正,智能化寻根中华人文基因,数字化梳理国家文明谱系。他主张,在人工智能技术深刻变革学习与认知方式的时代背景下,要将蕴含于中华优秀传统文化典籍中“仁、忠、孝、悌、达、和、信、道、智、法、术、廉、勇、勤”等核心人文基因,与社会主义核心价值观、革命文化、社会主义先进文化融通,并进行系统性数字化提取与多模态智能化呈现,使优秀传统文化真正“活起来”,降低文化理解的门槛,赋能教育从“言意教育”向融合多模态、具象化、智能体化特征的“象意教育”转变。 中华书局总经理助理、古联公司总经理洪涛表示,中华书局拥有30亿字以上的优质语料以及110亿字的古籍大语料,深耕古籍资源数字化转化,新型国家语料库建设项目与古联公司发展方向高度契合,双方合作具备坚实基础与广阔空间。未来,愿与各方联合探讨古籍内容筛选、价值观提炼、产品形态创新等关键问题,推动中华优秀传统文化的创造性转化与创新性发展。 为高质量推进新型国家语料库项目建设,1月16日和1月20日还分别召开了新型国家语料库建设规划与实施策略研讨会和新型国家语料库数字化国谱建设高端论坛。两次会议汇集了文化、教育、科技、产业等多领域智慧,明确了以“国料”为依托、以“国谱”为抓手、以“国标”为先导的实施策略,规划了“示范先行、以点带面”的务实路径,并确定将在国家地理文明标识、大中小学经典阅读、家谱和校谱文化、杰出教育人物等领域率先建设示范子库。这些前期工作为后续跨学科、跨机构协同共建奠定了坚实基础。 新型国家语料库建设规划与实施策略研讨会暨专家委员会次会议代表
新型国家语料库数字化国谱建设高端论坛暨专家委员会第二次会议代表
此次合作,标志着中华书局古联公司与中国语言智能研究中心(教育部、国家语委双主管),围绕国家新型语料库建设所达成的一项战略性协同。这一合作不仅标志着中华书局古联公司在中华典籍语料库建设领域迈入更高发展阶段,更彰显其主动融入国家战略、服务文化强国建设的责任担当。 面对人工智能技术指数级跃升、数据规模迅猛增长的时代浪潮,双方立足国家发展大局,以前瞻性视野推进高质量语料资源的系统性建设与精准化筛选,是夯实国家语言智能基础设施、筑牢中华文化数字根基的重要战略举措。 展望未来,我们将持续扩充高价值、高信度的中华典籍语料资源,并在此坚实基础上,开展深度结构化加工,构建面向人工智能时代需求的多维知识体系,打造支撑大模型训练与智能体演进的知识矩阵。 我们将积极探索中华典籍大数据的多模态、立体化开发路径,推动传统文化资源的创造性转化与创新性发展,助力中华优秀传统文化在数字文明时代焕发新生、走向世界。 双方还将携手深入挖掘中华典籍中蕴含的人文精神、道德理念与价值基因,为培养兼具人工智能素养与社会主义核心价值观的新时代复合型人才提供深厚文化支撑。


