微软推出PyRIT:生成式人工智能风险识别工具包

PyRIT 可以生成数千个恶意提示来测试一代 AI 模型,甚至对其响应进行评分

最近更新时间 2024-02-23 14:02:54

93.jpg

尽管生成式人工智能(gen AI)模型具有先进的功能,但我们也看到了许多这些模型出现失控、产生幻觉或被恶意行为者利用的情况。为了缓解这一问题,微软推出了一款工具,可以帮助识别生成式人工智能系统中的风险。

本周四,微软发布了用于生成式人工智能的 Python 风险识别工具包(PyRIT)。微软的人工智能红队一直在使用该工具来检查包括 Copilot 在内的生成式人工智能系统中的风险。

据一篇博文称,在过去的一年中,微软与 60 多个高价值的生成式人工智能系统进行了红队合作。从中了解到,这些系统的红队过程与经典人工智能或传统软件有很大不同。这一过程看起来有所不同,因为微软除了要考虑通常的安全风险外,还要考虑负责任的人工智能风险。比如,确保不会故意生成有害内容,或确保模型不会输出虚假信息。

此外,生成式人工智能模型的架构千差万别,同样的输入可能产生不同的结果,因此很难找到一个适合所有模型的简化流程。

rss_feed