多文化・多言語対応の安全な大規模言語モデルの構築を目指して
講演資料はこちらから、ウェビナーの報告書はこちらからダウンロードできます。
シンガポールAIセーフティレッドチーミングチャレンジ参加レポートはこちらからダウンロードできます。
開催日時 | 2024年11月11日(月)10:00-11:00 |
---|---|
会場 |
Zoomウェビナー(登録はこちらへ) |
申込方法 | 事前申込制(当日参加できないため、後日の動画配信案内を希望する方もご登録をお願いします) |
言語 | 日本語 |
要旨 |
生成人工知能(AI)の利用が世界的に広まるにつれ、AIモデルが地域ごとの文化や言語におけるリスクや懸念を敏感に反映できることがますます重要になっています。
そのためには、何がリスクや有害なコンテンツなのかを地域・文化ごとに特定する作業を更新し続けていくことが必要となります。この作業には、AIや情報セキュリティの研究者はもちろん、人文・社会科学の研究者、AIやメディアのプラットフォーマー達や実務家の方や政策関係者たちと継続的に議論できるコミュニティを形成していくことが重要となります。
これに対する1つのアプローチとして展開されている「レッドチーミング」は、生成AIを評価するため、安全性に違反するような暴力を煽る有害コンテンツ、攻撃的な言葉、汚い言葉などをあえて誘発し、モデルを「壊そう」とするものです。しかし、現在のAIの安全性に関するレッドチーミングは、欧米中心であり、地域的な被害(モデルが特定の民族を差別するリスクなど)に対処する方法を考える必要があります。
このような問題意識のもと2024年11月、シンガポール政府 Infocomm Media Development Authority が「AI安全性レッドチームチャレンジ プロジェクト」を開始しました。文化や言語の専門家のコミュニティを集め、AIモデルをレッドチーム化することを目的として組成しており、生成AIを地域にとってより安全なものにするための重要な第一歩と捉えています。同プロジェクトには日本も協力しています。本イベントでは、11月5日に行われたプロジェクトの報告会を行うと同時に、このようなコミュニティを継続させていく枠組みについてお話します。
生成AIの安全性やガバナンスにご関心をお持ちの方々のご参加をお待ちしております。 |
プログラム |
10:00-10:15 開会挨拶と趣旨説明:江間有沙(東京大学東京カレッジ) 10:15-10:30 LLMの安全性に向けた取り組み:関根聡(NII-LLMC/理研AIP) 10:30-10:45 CTFチャレンジの概要説明と今後について:築地テレサ(日本ディープラーニング協会) 10:45-11:00 コメントと質疑応答 |
お問い合わせ | tg-event@tc.u-tokyo.ac.jp |
主催 | 東京大学国際高等研究所東京カレッジ、東京大学未来ビジョン研究センター、東京大学次世代知能科学研究センター、東京大学B’AI Global Forum、日本ディープラーニング協会 |
後援 | 情報学研究所大規模言語モデル研究開発センター、日本AIセーフティ・インスティテュート |