生成AIはデジタル格差により膨大な人類知識を見落とすことが研究で判明
生成AIモデルはインターネット上のデータに依存するため、デジタル化されていない膨大な人類の知識を取りこぼしていることが研究で明らかになった。
最新の更新
【カリフォルニア】インターネット上のデータを用いて学習された生成AIモデルは、デジタル化されていない、もしくはオンラインで過小評価されている膨大な領域の人類知識に触れる機会がほとんどないことが研究で明らかになった。
たとえば、Common Crawlのデータでは英語が44%を占め、世界人口の7.5%が話すヒンディー語はわずか0.2%、世界で8,600万人の話者を持つタミル語は0.04%に過ぎない。世界の言語の約97%はコンピューティングにおいて「低リソース」と分類されている。
2020年の研究では、88%の言語がAI技術で極端に無視されており、それらを現代のAIに対応させるには非常に大規模な努力が必要であると指摘されている。北アメリカ、北西アマゾニア、ニューギニアの薬用植物に関する調査では、12,495件の異なる利用法のうち75%以上が、特定の地域言語にのみ存在する独自の情報であった。
研究者によれば、大規模言語モデルは「モード増幅」と呼ばれる現象を通じて支配的なパターンを強化してしまい、少数言語や低リソース情報がさらに過小評価される結果となる。
好きかもしれない
- NordVPN、Linux用GUIアプリをオープンソース化し透明性と利便性を向上
- OpenAI、12月より年齢確認済みユーザー向けにChatGPTで官能コンテンツ解禁へ
- AIセラピーボット、妄想を助長し危険な助言を提供-スタンフォード大学の研究結果
- Google HomeがGeminiとの統合を強化し、新しいウィジェットを追加
- アメリカの列車、ハッカーによってリモートでブレーキがロックされる可能性があり、脆弱性は数年間放置されていた
- Google、全社の内部ワークロードをArmおよびx86アーキテクチャに移行、YouTubeやGmailも両方で稼働中
- マイクロソフト、AI生成コードを利用したフィッシング攻撃を阻止 難読化SVGファイルを検出
- Apple、開発者向けにオフラインAIモデルを提供開始