Transcript Document
会議支援システム
“TORIMASU”
ターム最終発表
che
sato
親 matsu
背景
会議では様々な仕事が発生する
司会
記録係
ログ取り係
カメラ・マイク係
問題点
仕事がある人は会議に参加できない。
司会係
会議の進行状況を正確に把握しなくては
ならない
記録係
人間が正確なログを取ることは難しい
映像や音声はそのままではデータが
大きく編集しにくい
結局、人手で文字起こしをしなければ
ならない状況になりがち
目的
コンピュータが会議の円滑な進行をサポートして
くれるシステムを作りたい
司会や記録係の負担を軽減する
アプローチ
音声認識による文字起こし
音声解析による発言者の識別
司会進行の代行
ログの電子データ化
主要機能
音声認識
音声解析
suzukシステムにより話者の位置情報を識別
司会進行
会議での発言をテキストに自動変換
会議の進行状況を管理
ユーザの発言の意味解釈
ログ生成
ユーザの発言をログとして生成
システム構成図
suzukシステム
話者位置情報
Torimasu
システム 音声処理モジュール
音声認識
音声合成
発言+
位置情報
司会モジュール
司会進行
会議進行情報
ログ生成
音声入力
マイク
音声出力
スピーカ
音声処理モジュール
che
suzuk
音声
処理
司会
要件
音声認識
音声合成
話者識別
音声認識
音声認識エンジン
Julius
オープンソースの音声認識ソフトウェア
発音辞書や言語モデル・音響モデルのカスタマイズが可能
Microsoft Japanese Recognizer
幅広い用途に応用できる
認識率はそれなり
話者の声を登録する必要がある
IBM ViaVoice
認識率は良い
話者の声を登録する必要がある
今回は使用しない
Microsoft Speech API
音声合成・音声認識エンジンを扱うためのイン
ターフェース
エンジン間の差異を気にせずプログラムを書ける
ユーザがエンジンを選択することが可能
音声合成・音声認識にはこれを使用
今回の環境では音声認識エンジンはJuliusか
Microsoft Japanese Recognizerのどちらかを選択
音声合成
Microsoft Speech APIを利用
WinSockとの相性が悪い?
同時に使うとエラーが発生する
プロセスを2つに分け、MSSAPIとWinSockを分離
プロセス間通信によりテキストデータを交換しあう
話者識別
波形解析
音の高さから話者を識別できるのでは?
フーリエ変換により周波数を解析
変換はできたが、その後が続かず挫折
高速フーリエ変換(FFT)ライブラリを使用したアプリケーショ
ンを試作
人の話し声かどうかの判別
ノイズ
suzukシステムと連携することにより話者識別を
行うことに
suzukシステム
Audio Location Systemを使用
音の発生源を特定できる
音の位置情報から話者を識別
suzuk
音声
処理
司会
司会モジュール
sato
suzuk
音声
処理
司会
要件
司会代行
音声による操作
ログ・ファイル作成
システム構成図
司会モジュール
データ
データ整形
ログデータ、位置データ
音声コマンド検査
返答
ログデータ、位置データ
GUI表示
ログ表示
ログデータ
ログ書き込み
ログデータ
位置データ
ファイル
位置表示
音声コマンド一覧
システム操作編
いま何時 → 「ただいまの時間は・・・・です。」
アジェンダ → 「本日のアジェンダはこれです。」
ログ取り終了 → システム終了
オフレコ → ログ取り一時停止
再開 → ログ取り再開
次の議題 → 次の議題を提示
会話編
つかれた → 「お疲れさまです」
ねむい → 「もうすこしです、頑張って」
可決 → 「おめでとうございます。議題が可決されました」
考察
音声処理
音声認識の精度が悪い
今後、MSSAPI対応の音声認識エンジンが増えていけば実用性が
高まると予想される
司会モジュール
もっと優れた司会モジュールになる必要がある
議論の本筋の修正機能
音声データから、疲れ度を検知し、休憩をいれる など
ログ・データ・ベースの活用機能
検索機能
議論進行図の作成
など