Transcript Document

会議支援システム
“TORIMASU”
ターム最終発表
che
sato
親 matsu
背景

会議では様々な仕事が発生する

司会

記録係

ログ取り係

カメラ・マイク係
問題点


仕事がある人は会議に参加できない。
司会係


会議の進行状況を正確に把握しなくては
ならない
記録係


人間が正確なログを取ることは難しい
映像や音声はそのままではデータが
大きく編集しにくい

結局、人手で文字起こしをしなければ
ならない状況になりがち
目的

コンピュータが会議の円滑な進行をサポートして
くれるシステムを作りたい

司会や記録係の負担を軽減する
アプローチ

音声認識による文字起こし

音声解析による発言者の識別

司会進行の代行

ログの電子データ化
主要機能

音声認識


音声解析


suzukシステムにより話者の位置情報を識別
司会進行



会議での発言をテキストに自動変換
会議の進行状況を管理
ユーザの発言の意味解釈
ログ生成

ユーザの発言をログとして生成
システム構成図
suzukシステム
話者位置情報
Torimasu
システム 音声処理モジュール
音声認識
音声合成
発言+
位置情報
司会モジュール
司会進行
会議進行情報
ログ生成
音声入力
マイク
音声出力
スピーカ
音声処理モジュール
che
suzuk
音声
処理
司会
要件



音声認識
音声合成
話者識別
音声認識

音声認識エンジン

Julius


オープンソースの音声認識ソフトウェア
発音辞書や言語モデル・音響モデルのカスタマイズが可能


Microsoft Japanese Recognizer



幅広い用途に応用できる
認識率はそれなり
話者の声を登録する必要がある
IBM ViaVoice



認識率は良い
話者の声を登録する必要がある
今回は使用しない
Microsoft Speech API

音声合成・音声認識エンジンを扱うためのイン
ターフェース



エンジン間の差異を気にせずプログラムを書ける
ユーザがエンジンを選択することが可能
音声合成・音声認識にはこれを使用

今回の環境では音声認識エンジンはJuliusか
Microsoft Japanese Recognizerのどちらかを選択
音声合成

Microsoft Speech APIを利用

WinSockとの相性が悪い?


同時に使うとエラーが発生する
プロセスを2つに分け、MSSAPIとWinSockを分離

プロセス間通信によりテキストデータを交換しあう
話者識別

波形解析


音の高さから話者を識別できるのでは?
フーリエ変換により周波数を解析


変換はできたが、その後が続かず挫折



高速フーリエ変換(FFT)ライブラリを使用したアプリケーショ
ンを試作
人の話し声かどうかの判別
ノイズ
suzukシステムと連携することにより話者識別を
行うことに
suzukシステム


Audio Location Systemを使用
音の発生源を特定できる

音の位置情報から話者を識別
suzuk
音声
処理
司会
司会モジュール
sato
suzuk
音声
処理
司会
要件



司会代行
音声による操作
ログ・ファイル作成
システム構成図
司会モジュール
データ
データ整形
ログデータ、位置データ
音声コマンド検査
返答
ログデータ、位置データ
GUI表示
ログ表示
ログデータ
ログ書き込み
ログデータ
位置データ
ファイル
位置表示
音声コマンド一覧

システム操作編







いま何時 → 「ただいまの時間は・・・・です。」
アジェンダ → 「本日のアジェンダはこれです。」
ログ取り終了 → システム終了
オフレコ → ログ取り一時停止
再開 → ログ取り再開
次の議題 → 次の議題を提示
会話編



つかれた → 「お疲れさまです」
ねむい → 「もうすこしです、頑張って」
可決 → 「おめでとうございます。議題が可決されました」
考察

音声処理

音声認識の精度が悪い


今後、MSSAPI対応の音声認識エンジンが増えていけば実用性が
高まると予想される
司会モジュール

もっと優れた司会モジュールになる必要がある



議論の本筋の修正機能
音声データから、疲れ度を検知し、休憩をいれる など
ログ・データ・ベースの活用機能


検索機能
議論進行図の作成
など