当研究グループのテーマは計算機を賢くすること(いわゆる人工知能)ですが, その中でも特に人間の言葉を理解し,話すソフトウエアを作る「自然言語処理」の研究です. 基礎技術としてオープンデータ(LOD:Linked Open Data),機械学習なども含みます.

口コミ分析,ウエブ情報抽出

口コミからの行動・意識の分析
twitterなどのウエブ上の投稿から人々の行動や意識を探ります。これらの投稿サイトには コミュニケーションを本当に意図しているのか?と思 われるような「つぶやき」が多数投稿されている一方,そのリアルタイム性とユーザの多さから, 公共性の高い情報を提供する手段としても活用されていることも周知の通りです. ここではどちらかと言うと前者の「つぶやきに近い情報」に注目してネットユーザの動向等を探ります.
ネット日本語」の解析
ブログやマイクロブログ(例:twitter)には新聞や教科書のような日本語とは違う「崩れた表現」 やいわゆる「若者言葉」などが頻出し,計算機による解析を失敗させる原因になっています. 我々はこのような日本語を解析する手法を検討しています.

深い意味理解・読解

大学入試問題(センター試験)を計算機に解かせる
大学入試問題は人間の知的能力の一つの側面を測定する尺度としてなかなか興味ふかいものです. 計算機に大学入試問題を解かせることにより,知的情報処理の現状の到達点と今後解決すべき課題が 明らかになると考えています.
このような考えのもと国立情報学研究所が中心となって「ロボットは東大に入れるか(略称:東ロボ)」という プロジェクトが立ち上がっています. 我々は当学科の磯崎研究室や企業の研究所,他の大学と連携して「英語チーム」としてこの課題に 取り組んでいます.センター試験模試において,我々の英語チームは受験生の平均を 若干上回る成績を取っています.

地域言語(岡山弁)の理解と生成

岡山県では都市部でも岡山弁が健在です.怖い,美しくない,と言われる(こともある)岡山方言ですが, 現代日本語が失ってしまった古語表現が生き残っているなど興味深いものです. ここでは analysis by synthesis をモットーに岡山弁の計算機モデルを検討し,「岡山弁のできる計算機」 の実現を目指しています.

知識の共有・オープンデータ

情報通信インフラの整備により、多くの有用な情報が「ウエブページ」の形で公開されています。これらの ウエブページは我々人間にとって分かりやすく希望の情報が探しやすいように工夫されていますが、 計算機プログラムによる二次利用(つまり計算機に「読ませて活用させる」こと)は容易でありません。 これは人間にとっては最も自然な情報伝達手段である「言葉(自然言語)」が計算機にとっては曖昧だったり, 冗長だったりするためです. 我々は上述のように「言葉を理解する計算機」を開発することでこの問題に取り組んで いますが,短期的には情報をウエブで発信する時にもう少し「計算機にとって理解しやすい記述」を使う (つまり計算機に歩み寄る)ということも必要だろうと考えています.そのような取組は Semantic Web, Linked Open Data(LOD)などと呼ばれ,以前から世界的な広がりをみせています. 我々は特に地域情報の高度利用という観点から、LODの有用性や課題について検討しています.

防災分野におけるデータの活用
総社市のデジタルハザードマップ(総社市サイト)
観光分野におけるデータの活用
岡山・香川の観光イベント一括案内(更新中断中)
岡山県と香川県は,穏やかで美しい瀬戸内海をはさんで非常に密接な関係にあります.観光でこの地域を訪れる方々も「県」という行政の境界を越えて 楽しんでおられます.そこで,このサイトではLODを用いて両県の観光境界が発信する観光イベント情報を統合的に検索できる 仕組みを作りました.おまけとして国立情報学研究所が主導するLODACの情報にもアクセスできるようにしています.
LOD普及に向けて
かいけつエクスプレス(菊井玄一郎,但馬康宏,齋藤美絵子(デザイン学部・造形デザイン学科))
Linked Open Data チャレンジJapan 2013 「ベストプレゼンテーション賞」