研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容长春市某某策划售后客服中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功长春市某某策划售后客服中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热点)
-
▼点下方播放按钮收听十点主播闻悦朗读音频上次和宝妈朋友们聚会时,她们几乎从头到尾都在聊“鸡娃”话题。有时我也疑惑,孩子还这么小,有必要这么快就抓得这么紧吗?一位朋友无奈地叹气说:“你不知道,像我们这种
...[详细]
-
不想让孩子被AI取代?科学家奶爸这样做2024-10-28 07:22:20 来源:中国青年报 作者:付子豪
...[详细]
-
新华社快讯:航天员宋令东和航天员王浩泽均为我国第三批航天员,都是“90后”,都是首次执行飞行任务。其中,宋令东入选前是空军飞行员,将是我国首个飞天的“90后”男航天员。 另据央视新闻报道: [
...[详细]
-
中国地震台网正式测定:10月27日14时19分在台湾台南市北纬23.36度,东经120.48度)发生4.2级地震,震源深度18千米。
...[详细]
-
20日,国内首块L3级自动驾驶专用正式号牌“渝AD0001Z”在重庆诞生,由重庆市公安局交通管理总队正式授予长安汽车,标志着长安汽车在国内率先开启L3级自动驾驶时代。 当前,长安L3级自动驾驶系
...[详细]
-
执行神舟十九号载人飞行任务的航天员乘组由蔡旭哲、宋令东、王浩泽3名航天员组成。此刻,神十九航天员正在同框集体亮相。神十九乘组简历公布↓↓ 另据央视新闻报道: [明日凌晨出征!神十九航天员首次亮
...[详细]
-
当地时间10月29日,欧盟委员会发布消息称结束了反补贴调查,决定对从中国进口的电动汽车BEV)征收为期五年的最终反补贴税。 据悉,将对被抽样的中国出口生产商将征收以下反补贴税:比亚迪:17.0%
...[详细]
-
澎湃新闻记者从顾国宁先生多位友人处获悉,知名主持人顾国宁先生,因突发疾病,经医治无效,于2024年10月29日在上海逝世,终年46岁。 公开资料显示,顾国宁,1978年出生于黑龙江省齐齐哈尔市,
...[详细]
-
本周末开考!山东合格考准考证每天可打印,部分考场分布图出炉!
各位考生:山东省2025年冬季普通高中学业水平合格考试以下简称合格考试)将于12月27日至31日进行,为助力广大考生考试平稳顺利,现将有关事项提醒如下:一)及时打印准考证。考生可于12月19日—25日
...[详细]
-
扫码咨询2024年新航道秋季班October 29, 2024雅思作文真题直击 | | 栏目推送说明每场雅思考试之后,第一时间分享本场考试雅思A类大作文的范文权威解析。欢迎每周锁定。本期作者:张
...[详细]

为继续销售货机 波音公司向美航管局申请排放豁免
欧洲多国进入冬令时 欧股下周一起延迟1小时开收盘
印媒称印中将完成军事脱离接触
雷达数据显示美军战机在委内瑞拉首都附近空域活动