微軟推出PyRIT:生成式人工智能風險識別工具包
PyRIT 可以生成數千個惡意提示來測試一代 AI 模型,甚至對其響應進行評分
最近更新時間 2024-02-23 14:02:54
儘管生成式人工智能(gen AI)模型具有先進的功能,但我們也看到了許多這些模型出現失控、產生幻覺或被惡意行為者利用的情況。為了緩解這一問題,微軟推出了一款工具,可以幫助識別生成式人工智能系統中的風險。
本週四,微軟發佈了用於生成式人工智能的 Python 風險識別工具包(PyRIT)。微軟的人工智能紅隊一直在使用該工具來檢查包括 Copilot 在內的生成式人工智能系統中的風險。
據一篇博文稱,在過去的一年中,微軟與 60 多個高價值的生成式人工智能系統進行了紅隊合作。從中瞭解到,這些系統的紅隊過程與經典人工智能或傳統軟件有很大不同。這一過程看起來有所不同,因為微軟除了要考慮通常的安全風險外,還要考慮負責任的人工智能風險。比如,確保不會故意生成有害內容,或確保模型不會輸出虛假信息。
此外,生成式人工智能模型的架構千差萬別,同樣的輸入可能產生不同的結果,因此很難找到一個適合所有模型的簡化流程。