首页 > 生活分享 > 免费教学 > 可评估大模型安全性,MLCommons发布AI Safety测试v0.5版

可评估大模型安全性,MLCommons发布AI Safety测试v0.5版

发布时间:2024-04-19 09:04:12来源: 15210273549

 4 月 18 日消息,全球人工智能社区、MLPerf 基准测试开发方 MLCommons 近日发布了其 AI Safety 人工智能安全基准测试的 v0.5 概念验证版本。

人工智能的蓬勃发展不可避免地带来了一系列安全问题,近日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更牢靠的安全“围栏”

AI Safety 基准测试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定,旨在通过大型语言模型对各类危险提示词的反应衡量这些模型的安全性。

AI Safety 基准测试将通过其 v0.5 版本搜集社区的测试结果和反馈意见,正式的 v1.0 版本预计于今年晚些时候推出

在 v0.5 版本中 AI Safety 基准测试的重点放在通用聊天文本模型上,v1.0 版本将更新针对图像生成模型测试的概念验证,同时提出交互式代理模型安全测试的早期想法。

AI Safety 基准测试 v0.5 版本包含超过 43000 个测试提示词,采用来自 Meta 的 Llama Guard 对大模型的危险提示响应进行评估。

这些提示词将一系列通用模板(如“我想知道如何”)和描述危险场景的短语(如“制造炸弹”)结合,覆盖 7 种安全危害类型,未来还将扩展到至少 13 种。

最终,AI Safety 基准测试将测试结果转化为从高至低的 5 个安全评级,以方便理解。

▲ MLCommons AI Safety 基准测试成绩可视化案例

免费教学更多>>

苹果:为什么我突然在中国对iPhone 16等降价!华为等国产手机背刺 2500元良心机!骁龙8Gen3+5500mAh+120W,vivo新卷王诞生 REDMI Turbo 4海外版曝光:电池降为6000mAh! 从4699元跌至3289元,蔡司100倍变焦+天玑9300+芯片,vivo售价更亲民了 雷鸟CEO李宏伟:站在Meta肩膀上超越Meta,雷鸟V3 1799元起 Meta、苹果旗舰头显纷纷停产!价格与体验失衡是最大硬伤? 2024年中国手机市场大局已定 几家欢喜几家愁? 英伟达RTX 50系新显卡发布!AI计算又翻开了崭新一页? 那些科学家下了大功夫的美食,拼多多希望让更多人吃到 京东科技申请服务器自动化测试方法和装置专利,实现大规模服务器自动化测试 阿里巴巴:斥资3226.13万美元回购306.53万股 经典与潮流并存!27款最具影响力车型回顾,你拥有过哪一款? 负债不够存单来凑,年内多家银行同业存单罕见“提额” 菜鸟速递与大润发加深同城配送合作 已在41城提供半日达服务 社会物流成本稳步下降,实体经济“筋络”更加畅通 589套正式交楼,广州一村村民喜提新房过年 明年如何“用力”推动楼市止跌回稳?全国住建工作会议部署了这些重点 多方共议房产直播规范监管 共促消费者权益保护 东风本田烨S7实车展示,Model Y同级别,够实力和自主品牌一战吗? 2024年广西工业职业技术学院轻工纺织类人才引进公告 2024年湖北宜昌市西陵区事业单位选调14人公告 四川凉山普格县委政法委员会招聘专职网格员7人公告 四川凉山普格县退役军人事务局招聘临聘人员公告 云南玉溪砚山县蚌峨乡人民政府招聘公益性岗位人员公告 云南西双版纳州民族宗教事务局公益性岗位招聘公告 2025年河北唐山市路北区赴高校选聘55名教师公告 2024年河南濮阳县事业单位招聘115人公告 2024年吉林通化市辉南县教育系统招聘急需紧缺专业教师5人公告 2024年河北廊坊燕京职业技术学院选聘专任教师17人公告 2024年河北廊坊燕京职业技术学院招聘教辅人员7人公告