COMPL-AI:首个欧盟人工智能法案的AI框架

banq

苏黎世联邦理工学院、INSAIT 和 LatticeFlow AI 的研究人员开发了 COMPL-AI,这是欧盟人工智能法案背景下第一个针对生成式人工智能模型的综合评估平台,其中包括法律的技术解释和开放的基准测试套件。

使用 COMPL-AI 对公共 AI 模型进行评估发现了重大差距,一些高性能模型未能满足监管要求,特别是在网络安全和公平性等领域,而较小的模型则优先考虑能力而不是道德方面。

欧盟委员会对 COMPL-AI 的发布表示欢迎,这是将欧盟人工智能法案转化为技术要求的第一步,该框架可以使负责监督通用人工智能模型的人工智能法案规则实施和执行的 GPAI 工作组受益。


欧盟人工智能法案的首次技术解释
2024 年 8 月生效的《欧盟人工智能法案》虽然规定了一般监管要求,但并未为企业提供详细的技术指南。COMPL-AI 旨在通过将法律要求转化为可衡量的技术规范来弥补这一差距。

该框架基于 27 个最先进的基准,可用于根据这些技术要求评估LLM。该方法还可以扩展到评估与欧盟人工智能法案以外的未来法规相关的人工智能模型。

首次对公共AI模型进行合规性导向评估
作为发布的一部分,OpenAI、Meta、谷歌、Anthropic 和阿里巴巴等公司的公共生成式人工智能模型首次根据欧盟人工智能法案的技术解释进行评估。

评估发现了一些重要缺陷:一些高性能模型未达到监管要求,许多模型在网络安全和公平性基准上的得分仅为 50% 左右。积极的一面是,大多数模型在有害内容和毒性相关要求方面表现良好。

研究人员表示,较小的模型面临更大的挑战,因为它们通常优先考虑能力而不是多样性和公平性等道德方面。

令人惊讶的是,OpenAI 的模型GPT-4 Turbo脱颖而出,而这家公司并不以在开发过程中恪守道德规范而闻名。紧随其后的是 Claude 3 Opus,根据基准测试,它的透明度较低,但对攻击的安全性更高。

有了这个框架,任何公司——无论是使用公共、定制还是私人模型——现在都可以根据《欧盟人工智能法案》的技术解释来评估他们的人工智能系统。愿景是使组织能够确保他们的人工智能系统不仅性能卓越,而且完全符合《欧盟人工智能法案》等监管要求。

COMPL-AI 的发布还可以使负责监督通用人工智能 (GPAI) 模型的《人工智能法案》规则实施和执行的GPAI 工作组受益。他们可以使用技术解释文件作为其工作的起点。