生成AIはデジタル格差により膨大な人類知識を見落とすことが研究で判明
生成AIモデルはインターネット上のデータに依存するため、デジタル化されていない膨大な人類の知識を取りこぼしていることが研究で明らかになった。
最新の更新
【カリフォルニア】インターネット上のデータを用いて学習された生成AIモデルは、デジタル化されていない、もしくはオンラインで過小評価されている膨大な領域の人類知識に触れる機会がほとんどないことが研究で明らかになった。
たとえば、Common Crawlのデータでは英語が44%を占め、世界人口の7.5%が話すヒンディー語はわずか0.2%、世界で8,600万人の話者を持つタミル語は0.04%に過ぎない。世界の言語の約97%はコンピューティングにおいて「低リソース」と分類されている。
2020年の研究では、88%の言語がAI技術で極端に無視されており、それらを現代のAIに対応させるには非常に大規模な努力が必要であると指摘されている。北アメリカ、北西アマゾニア、ニューギニアの薬用植物に関する調査では、12,495件の異なる利用法のうち75%以上が、特定の地域言語にのみ存在する独自の情報であった。
研究者によれば、大規模言語モデルは「モード増幅」と呼ばれる現象を通じて支配的なパターンを強化してしまい、少数言語や低リソース情報がさらに過小評価される結果となる。
好きかもしれない
- NordVPN、Linux用GUIアプリをオープンソース化し透明性と利便性を向上
- OpenAI、12月より年齢確認済みユーザー向けにChatGPTで官能コンテンツ解禁へ
- マクドナルドのAI採用ボット、応募者のデータをハッカーに漏洩
- Google、iPhone風の「コーリングカード」をPhoneアプリに追加
- ユナイテッド航空、iOS 26の新機能に対応 Appleウォレットの強化版搭乗券を初導入
- Google Cloud、EUデータ法施行前に英EU間のデータ転送料金を撤廃しオープン性をアピール
- ライカ、初の自社ブランド35mmフィルム『Monopan 50』を発表
- Cirque du Soleil、National Geographic、NASAが初の微小重力環境でのマルチメディア公演を開催