研究：部分AI系统已经学会欺骗人类

oragne · 发表于 2024-5-13 07:53

近期一项研究显示，部分人工智能系统已经学会“撒谎”，其中包括一些号称已被训练得诚实且乐于助人的系统。

新华社报道，美国麻省理工学院的研究团队星期六（5月11日）发表在《模式》（Patterns）科学杂志的研究指出，部分人工智能（AI）系统通过习得性欺骗，系统地学会了“操纵”他人。

随着AI技术飞速发展，人们一直关心AI是否会欺骗人类。这项研究在文献中列举了一些AI学习传播虚假信息的例子，其中包括Meta公司的“西塞罗”（Cicero）AI系统。

这套系统最初设计目的是在一款名为“外交”（Diplomacy）的战略游戏中充当人类玩家的对手，游戏的获胜关键是结盟。

Meta公司声称，西塞罗系统“在很大程度上是诚实和乐于助人的”，并且在玩游戏时“从不故意背刺”它的人类盟友，但该公司发表的论文数据显示，该系统在游戏中并未做到公平。

这项研究的第一作者、美国麻省理工学院（MIT）研究AI存在安全的博士后研究员帕克（Peter Park）说，西塞罗系统已经成为“欺骗大师”。它在玩家排行榜中排名前10%，但公司没能训练它诚实地获胜。

举例来说，在游戏中扮演法国的西塞罗与人类玩家扮演的德国合谋，欺骗并入侵同为人类玩家扮演的英国。西塞罗承诺会保护英国，却偷偷向德国通风报信。

其他一些AI系统则展现出虚张声势、假意攻击对手、在谈判游戏中为占上风而歪曲偏好等能力。

帕克指出，这些危险功能常常在事后才被发现，而当前技术训练诚实倾向而非欺瞒倾向的能力非常差。

研究人员说，虽然AI系统在游戏中作弊看似无害，但可能会导致“欺骗性AI能力的突破”，并在未来演变成更高级的AI欺骗形式。

帕克说：“我们需要尽可能多的时间，为未来AI产品和开源模型可能出现的更高级欺骗做好准备。我们建议，将欺骗性AI系统归类为高风险系统。”

来源：联合早报网

账号		自动登录	找回密码
密码			立即注册

[其他] 研究：部分AI系统已经学会欺骗人类