Googleとアフリカの研究機関のコンソーシアムがWAXALデータセットを立ち上げました。これは大規模な新しい取り組みで… 記事:Googleが21のアフリカ言語でAIをトレーニングGoogleとアフリカの研究機関のコンソーシアムがWAXALデータセットを立ち上げました。これは大規模な新しい取り組みで… 記事:Googleが21のアフリカ言語でAIをトレーニング

Googleが21のアフリカ言語でAIをトレーニング、ヨルバ語、ハウサ語、イボ語を含む

Googleとアフリカの研究機関コンソーシアムは、WAXALデータセットを立ち上げました。これは、アフリカ大陸における人工知能(AI)の主要な課題の1つである、ほとんどのアフリカ言語を解釈・理解できないという問題を修正するための大規模な新しい取り組みです。

このプロジェクトは、サハラ以南アフリカの21言語にわたる大規模なオープン音声データセットを提供し、AI経済から除外されていた1億人以上の人々に音声技術をもたらします。

WAXALデータセットは、Googleが資金提供し、地元の大学やコミュニティグループが主導した3年間の協力の成果です。

これには、1,250時間の文字起こしされた自然な音声と、高忠実度の合成音声を構築することを目的とした20時間以上のスタジオグレードの録音が含まれています。ハウサ語、ヨルバ語、ルガンダ語、イボ語、アチョリ語などの言語を対象としており、これらの多くは数千万人に話されていますが、商用音声システムではほとんど認識されていません。

Google and African universities launch the WAXAL dataset to train AI in 21 African languages, including Yoruba, Hausa and Igbo

グローバルAIについて多くの議論がありますが、音声技術は依然として英語と少数のヨーロッパおよびアジアの言語に大きく偏っています。2,000以上の言語を持つアフリカは、周縁に置き去りにされてきました。

このギャップは学問的なものではありません。誰がデジタルサービスを使用できるか、誰が教育や医療ツールにアクセスできるか、誰が最新のAIプラットフォーム上で企業を構築できるかを形作っています。Googleは、この取り組みを、多くのアフリカ言語を音声アシスタントやその他のツールから除外してきた長年のデータギャップを狭めるための一歩として位置づけています。

WAXALデータセットがアフリカのAIアーキテクチャにとって重要な理由

この不均衡に直接対処することを超えて、このプロジェクトはデータそのものと同じくらい重要です。

アフリカの音声データが抽出され、他の場所で所有されていた以前の取り組みとは異なり、WAXALはアフリカの機関によって現地で主導されました。ウガンダのマケレレ大学、ガーナ大学、ルワンダのDigital Umugandaが、Google Research Africaの技術サポートを受けながら、データ収集、コミュニティエンゲージメント、言語管理を監督しました。

重要なことに、これらの機関はデータの所有権を保持しています。これは、オープン性の名の下に採取的なダイナミクスを再現していると批判されることの多い分野における注目すべき変化です。

Google Research Africaの責任者であるAisha Walcott-Bryantによると、「WAXALの究極的な影響は、アフリカの人々のエンパワーメントです。このデータセットは、学生、研究者、起業家が自分たちの条件で、自分たちの言語で技術を構築するための重要な基盤を提供し、最終的に1億人以上の人々に届きます。」

「アフリカのイノベーターがこのデータを使用して、新しい教育ツールから音声対応サービスまで、大陸全体で具体的な経済的機会を創出するあらゆるものを作成するのを楽しみにしています」と彼女は付け加えました。

Google and African universities launch the WAXAL dataset to train AI in 21 African languages, including Yoruba, Hausa and IgboAisha Walcott-Bryant、Google Research Africa責任者

このフレーミングは、関与する大学によっても反映されています。マケレレ大学の上級講師であるJoyce Nakatumba-Nabendeは次のように述べています:

「AIがアフリカで真の影響を与えるためには、私たちの言語を話し、私たちの文脈を理解しなければなりません。WAXALデータセットは、研究者が私たちの独自のコミュニティを反映する音声技術を構築するために必要な優良なトークンを提供します。ウガンダでは、すでに地元の研究能力を強化し、学生と教員主導の新しいプロジェクトをサポートしています。」

ガーナ大学では、准教授のIsaac Wiafeが市民参加の規模を指摘しました:

「ガーナ大学にとって、WAXALの影響はデータそのものを超えています。これにより、私たちは独自の言語リソースを構築し、新世代のAI研究者を育成することができました。7,000人以上のボランティアが参加したのは、彼らの声と言語がデジタルの未来に属することを望んでいたからです。今日、その集団的努力は、健康、教育、農業などの分野でイノベーションのエコシステムを生み出しました。これは、データが存在すれば、可能性がどこでも拡大することを証明しています。」

慎重な楽観論の理由があります。オープン音声データセットは、大規模にデータを収集するリソースを持たない地元のスタートアップや研究者の障壁を下げることができます。また、アフリカ言語をほとんどサポートしていない外国のAPIへの依存を減らすこともできます。

Google and African universities launch the WAXAL dataset to train AI in 21 African languages, including Yoruba, Hausa and IgboWAXALデータセット

それでも、データセットは結果を保証するものではありません。信頼性の高い音声システムを構築するには、持続的な投資、現地での展開、そして国内に価値を保つ商業的経路が必要です。資金提供者および招集者としてのGoogleの役割は、特にWAXALデータが将来グローバル企業によってどのように使用されるかについて、精査を招くでしょう。

今のところ、WAXALデータセットのリリースは、より言語的に包括的なAIエコシステムへの具体的な一歩を示しています。これはアフリカのAI課題を解決するものではありませんが、基本的な課題に対処しています。音声は、技術との最も自然なインターフェースであることが多いです。AIがアフリカのすべての多様性を持って話すことを聞けるようにすることは、長い間遅れていました。

The post Google to train AI in 21 African languages, including Yoruba, Hausa and Igbo first appeared on Technext.

免責事項:このサイトに転載されている記事は、公開プラットフォームから引用されており、情報提供のみを目的としています。MEXCの見解を必ずしも反映するものではありません。すべての権利は原著者に帰属します。コンテンツが第三者の権利を侵害していると思われる場合は、削除を依頼するために service@support.mexc.com までご連絡ください。MEXCは、コンテンツの正確性、完全性、適時性について一切保証せず、提供された情報に基づいて行われたいかなる行動についても責任を負いません。本コンテンツは、財務、法律、その他の専門的なアドバイスを構成するものではなく、MEXCによる推奨または支持と見なされるべきではありません。