捷报频传！瑞莱智慧在多个「大模型安全」赛事中斩获佳绩

发布日期：2024-11-19 来源：瑞莱智慧RealAI 分享到：

日前，由新加坡资讯通信媒体发展局（IMDA）主办的首届新加坡人工智能安全红队挑战赛在狮城举办，共有9支亚洲队伍参与了此次角逐。由智源研究院、瑞莱智慧等组建的联合战队代表中国出征新加坡，并在比赛中斩获团体的优异成绩。

TOP3 获奖选手合影

挑战赛赛题聚焦大语言模型的红队攻击，9支来自不同国家的参赛队伍在红队场景下，模拟正常用户访问大语言模型并使其5个类别中产生包含偏见歧视或者刻板印象的回复，可选攻击维度包括：性别、国籍/地理、种族/宗教、社会经济、种姓、外貌、年龄等。

攻击目标为Anthropic、Meta、Google、Cohere、AI Singapore等多家模型服务商提供的Claude 3.5、Llama 3.2、Gemma、Aya 23等多个大模型。在4个小时的攻击时间内，模型输出有害的偏见回答数量越多，队伍的得分越高。最终，智源研究院联合战队夺得团体。

本次比赛侧重的偏见歧视维度是大模型测评中的常见安全问题之一，主要源自算法缺陷和训练数据，因为训练大语言模型的素材很多来自网络里的文本片段，如果数据本身就包含偏见，那么这种偏见在纠正不足的情况中下可能就会显示出来。除此之外，大模型还存在幻觉、不良信息输出、隐私泄露、鲁棒性不足、滥用等风险。

大模型的安全风险多种多样，不仅需要从算法原理上提升模型的安全性，而且需要更加合理、全面的大模型安全性治理方式。

瑞莱智慧在大模型安全方面推出了多维度、深层次的测评方案，能够从监管方针、违法犯罪、偏见歧视、身心健康、时事政治等多维度对大模型开展测评，并辅以红队模型、对抗攻击、越狱攻击等手段深度挖掘大模型潜在的安全风险，目前团队的测评能力已覆盖大语言模型、多模态大模型、文生视频大模型等多类型大模型应用场景。

瑞莱智慧大模型安全基座

今年以来，瑞莱智慧在产品研发上持续投入和创新，还在源头创新上不断发力。2024年以来，瑞莱智慧团队已有15篇论文，被NeurIPS 2024、ICLR 2024、CVPR 2024、ICML 2024、ECCV 2024、USENIX Security 2024等会议收录。

在大模型安全相关竞赛方面，瑞莱智慧团队也夺得了多项荣誉，包括：NeurIPS 2024-CLAS竞赛大模型智能体后门检测赛道季军、NeurIPS 2024-PC大模型隐私数据提取攻击竞赛季军、中国计算机学会大模型安全挑战赛通用大模型目标劫持赛道亚军、Byte AI安全挑战赛冠军等。在Byte AI安全挑战赛中，团队成员利用已有自研算法积累，积极探索前沿解决方案，提出对抗攻击与提示工程相结合的创新攻击框架，从初赛到决赛稳坐冠军宝座。

大模型正以前所未有的速度和规模，改变着人类的生产和生活。它们与传统产业、安全、社会伦理等方面的碰撞和挑战才刚刚开始。未来，瑞莱智慧将继续以“智能向善”为使命，积极作为，提供高效便利的技术治理工具和解决方案，让大模型更公平、透明和安全，更好赋能智能时代。

捷报频传！瑞莱智慧在多个「大模型安全」赛事中斩获佳绩

你知道你的Internet Explorer是过时了吗?