Transcript Document
会議支援システム “TORIMASU” ターム最終発表 che sato 親 matsu 背景 会議では様々な仕事が発生する 司会 記録係 ログ取り係 カメラ・マイク係 問題点 仕事がある人は会議に参加できない。 司会係 会議の進行状況を正確に把握しなくては ならない 記録係 人間が正確なログを取ることは難しい 映像や音声はそのままではデータが 大きく編集しにくい 結局、人手で文字起こしをしなければ ならない状況になりがち 目的 コンピュータが会議の円滑な進行をサポートして くれるシステムを作りたい 司会や記録係の負担を軽減する アプローチ 音声認識による文字起こし 音声解析による発言者の識別 司会進行の代行 ログの電子データ化 主要機能 音声認識 音声解析 suzukシステムにより話者の位置情報を識別 司会進行 会議での発言をテキストに自動変換 会議の進行状況を管理 ユーザの発言の意味解釈 ログ生成 ユーザの発言をログとして生成 システム構成図 suzukシステム 話者位置情報 Torimasu システム 音声処理モジュール 音声認識 音声合成 発言+ 位置情報 司会モジュール 司会進行 会議進行情報 ログ生成 音声入力 マイク 音声出力 スピーカ 音声処理モジュール che suzuk 音声 処理 司会 要件 音声認識 音声合成 話者識別 音声認識 音声認識エンジン Julius オープンソースの音声認識ソフトウェア 発音辞書や言語モデル・音響モデルのカスタマイズが可能 Microsoft Japanese Recognizer 幅広い用途に応用できる 認識率はそれなり 話者の声を登録する必要がある IBM ViaVoice 認識率は良い 話者の声を登録する必要がある 今回は使用しない Microsoft Speech API 音声合成・音声認識エンジンを扱うためのイン ターフェース エンジン間の差異を気にせずプログラムを書ける ユーザがエンジンを選択することが可能 音声合成・音声認識にはこれを使用 今回の環境では音声認識エンジンはJuliusか Microsoft Japanese Recognizerのどちらかを選択 音声合成 Microsoft Speech APIを利用 WinSockとの相性が悪い? 同時に使うとエラーが発生する プロセスを2つに分け、MSSAPIとWinSockを分離 プロセス間通信によりテキストデータを交換しあう 話者識別 波形解析 音の高さから話者を識別できるのでは? フーリエ変換により周波数を解析 変換はできたが、その後が続かず挫折 高速フーリエ変換(FFT)ライブラリを使用したアプリケーショ ンを試作 人の話し声かどうかの判別 ノイズ suzukシステムと連携することにより話者識別を 行うことに suzukシステム Audio Location Systemを使用 音の発生源を特定できる 音の位置情報から話者を識別 suzuk 音声 処理 司会 司会モジュール sato suzuk 音声 処理 司会 要件 司会代行 音声による操作 ログ・ファイル作成 システム構成図 司会モジュール データ データ整形 ログデータ、位置データ 音声コマンド検査 返答 ログデータ、位置データ GUI表示 ログ表示 ログデータ ログ書き込み ログデータ 位置データ ファイル 位置表示 音声コマンド一覧 システム操作編 いま何時 → 「ただいまの時間は・・・・です。」 アジェンダ → 「本日のアジェンダはこれです。」 ログ取り終了 → システム終了 オフレコ → ログ取り一時停止 再開 → ログ取り再開 次の議題 → 次の議題を提示 会話編 つかれた → 「お疲れさまです」 ねむい → 「もうすこしです、頑張って」 可決 → 「おめでとうございます。議題が可決されました」 考察 音声処理 音声認識の精度が悪い 今後、MSSAPI対応の音声認識エンジンが増えていけば実用性が 高まると予想される 司会モジュール もっと優れた司会モジュールになる必要がある 議論の本筋の修正機能 音声データから、疲れ度を検知し、休憩をいれる など ログ・データ・ベースの活用機能 検索機能 議論進行図の作成 など