為視障用户描述照片，Facebook 改進了 AI 技術

最近更新時間 2021-01-20 16:15:05

Facebook 宣佈了對其人工智能（AI）技術的新改進，該技術用於為視障用户生成在社交網絡上發佈的照片的描述。

Facebook 於2016年首次引入了稱為自動替代文本（AAT）的技術，以改善視障用户的體驗。直到那時，視障用户在檢查他們的 Facebook 新聞源並遇到圖像時，只會聽到“照片”一詞以及共享它的人的名字。

藉助 AAT，視障用户可以聽到“圖像可能包含：三個人，微笑，户外”之類的信息。

Facebook 表示，藉助 AAT 的最新版本，該公司能夠擴展 AI 技術可以在照片中檢測和識別的概念的數量，並提供更詳細的描述以包括活動，地標，食物類型和動物的類型，例如“在户外兩個人的自拍照，比薩斜塔”，而不是“兩個人的形象”。

該公司解釋説，通過每週一次使用其聲稱“更準確，並且在文化和人口統計學上都更準確”的樣本來訓練模型，使該技術可以識別的概念從100種增加到1200種以上。

Facebook 補充説，為了提供有關位置和數量的更多信息，該公司使用由Facebook AI Research 開發的開源平台培訓了其兩階段物體檢測器。

該公司表示：“我們對模型進行了訓練，以預測圖像中對象的位置和語義標籤。多標籤/多數據集訓練技術有助於在更大的標籤空間下使我們的模型更加可靠。”

過去，其他技術公司也做出了類似的努力，以改善視障用户的用户體驗。

去年，Google 發佈了 TalkBack 盲文鍵盤，以幫助用户直接在其 Android 設備上鍵入內容，而無需連接物理盲文鍵盤。此前，這家搜索引擎巨頭推出了Lookout應用程序，該應用程序使用 AI 來幫助用户通過將手機對準對象以進行語音反饋來查看。

在此之前，亞馬遜在 Echo Show 中引入了 Show and Tell 功能，因此它可以識別家庭儲藏室食品。用户只需將項目舉到顯示屏上，然後問：“ Alexa，我拿着什麼？”