为视障用户描述照片，Facebook 改进了 AI 技术

最近更新时间 2021-01-20 16:15:05

Facebook 宣布了对其人工智能（AI）技术的新改进，该技术用于为视障用户生成在社交网络上发布的照片的描述。

Facebook 于2016年首次引入了称为自动替代文本（AAT）的技术，以改善视障用户的体验。直到那时，视障用户在检查他们的 Facebook 新闻源并遇到图像时，只会听到“照片”一词以及共享它的人的名字。

借助 AAT，视障用户可以听到“图像可能包含：三个人，微笑，户外”之类的信息。

Facebook 表示，借助 AAT 的最新版本，该公司能够扩展 AI 技术可以在照片中检测和识别的概念的数量，并提供更详细的描述以包括活动，地标，食物类型和动物的类型，例如“在户外两个人的自拍照，比萨斜塔”，而不是“两个人的形象”。

该公司解释说，通过每周一次使用其声称“更准确，并且在文化和人口统计学上都更准确”的样本来训练模型，使该技术可以识别的概念从100种增加到1200种以上。

Facebook 补充说，为了提供有关位置和数量的更多信息，该公司使用由Facebook AI Research 开发的开源平台培训了其两阶段物体检测器。

该公司表示：“我们对模型进行了训练，以预测图像中对象的位置和语义标签。多标签/多数据集训练技术有助于在更大的标签空间下使我们的模型更加可靠。”

过去，其他技术公司也做出了类似的努力，以改善视障用户的用户体验。

去年，Google 发布了 TalkBack 盲文键盘，以帮助用户直接在其 Android 设备上键入内容，而无需连接物理盲文键盘。此前，这家搜索引擎巨头推出了Lookout应用程序，该应用程序使用 AI 来帮助用户通过将手机对准对象以进行语音反馈来查看。

在此之前，亚马逊在 Echo Show 中引入了 Show and Tell 功能，因此它可以识别家庭储藏室食品。用户只需将项目举到显示屏上，然后问：“ Alexa，我拿着什么？”