欢迎光临北京软件和信息服务业协会官方网站
捷报频传!瑞莱智慧在多个「大模型安全」赛事中斩获佳绩
发布日期:2024-11-19    来源:瑞莱智慧RealAI    分享到:

日前,由新加坡资讯通信媒体发展局(IMDA)主办的首届新加坡人工智能安全红队挑战赛在狮城举办,共有9支亚洲队伍参与了此次角逐。由智源研究院、瑞莱智慧等组建的联合战队代表中国出征新加坡,并在比赛中斩获团体的优异成绩。


1731983820995.jpg

TOP3 获奖选手合影

 

挑战赛赛题聚焦大语言模型的红队攻击,9支来自不同国家的参赛队伍在红队场景下,模拟正常用户访问大语言模型并使其5个类别中产生包含偏见歧视或者刻板印象的回复,可选攻击维度包括:性别、国籍/地理、种族/宗教、社会经济、种姓、外貌、年龄等。


攻击目标为Anthropic、Meta、Google、Cohere、AI Singapore等多家模型服务商提供的Claude 3.5、Llama 3.2、Gemma、Aya 23等多个大模型。在4个小时的攻击时间内,模型输出有害的偏见回答数量越多,队伍的得分越高。最终,智源研究院联合战队夺得团体。


1731983838075.png


本次比赛侧重的偏见歧视维度是大模型测评中的常见安全问题之一,主要源自算法缺陷和训练数据,因为训练大语言模型的素材很多来自网络里的文本片段,如果数据本身就包含偏见,那么这种偏见在纠正不足的情况中下可能就会显示出来。除此之外,大模型还存在幻觉、不良信息输出、隐私泄露、鲁棒性不足、滥用等风险。


大模型的安全风险多种多样,不仅需要从算法原理上提升模型的安全性,而且需要更加合理、全面的大模型安全性治理方式。


瑞莱智慧在大模型安全方面推出了多维度、深层次的测评方案,能够从监管方针、违法犯罪、偏见歧视、身心健康、时事政治等多维度对大模型开展测评,并辅以红队模型、对抗攻击、越狱攻击等手段深度挖掘大模型潜在的安全风险,目前团队的测评能力已覆盖大语言模型、多模态大模型、文生视频大模型等多类型大模型应用场景。


1731983851052.jpg

瑞莱智慧大模型安全基座

 

今年以来,瑞莱智慧在产品研发上持续投入和创新,还在源头创新上不断发力。2024年以来,瑞莱智慧团队已有15篇论文,被NeurIPS 2024、ICLR 2024、CVPR 2024、ICML 2024、ECCV 2024、USENIX Security 2024等会议收录。


在大模型安全相关竞赛方面,瑞莱智慧团队也夺得了多项荣誉,包括:NeurIPS 2024-CLAS竞赛大模型智能体后门检测赛道季军、NeurIPS 2024-PC大模型隐私数据提取攻击竞赛季军、中国计算机学会大模型安全挑战赛通用大模型目标劫持赛道亚军、Byte AI安全挑战赛冠军等。在Byte AI安全挑战赛中,团队成员利用已有自研算法积累,积极探索前沿解决方案,提出对抗攻击与提示工程相结合的创新攻击框架,从初赛到决赛稳坐冠军宝座。


大模型正以前所未有的速度和规模,改变着人类的生产和生活。它们与传统产业、安全、社会伦理等方面的碰撞和挑战才刚刚开始。未来,瑞莱智慧将继续以“智能向善”为使命,积极作为,提供高效便利的技术治理工具和解决方案,让大模型更公平、透明和安全,更好赋能智能时代。

你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.