HOME
>
全文掲載
>
「音声認識エンジンを用いた字幕化支援の現状と課題」
櫻井 悟史
20100322
シンポジウム「聴覚障害者の情報保障を考える」研究報告原稿
パワーポイント
laat update:20100324
以下の原稿は、坂本徳仁, 2009, 「音声認識エンジンを用いた聴覚障害者支援の実現可能性について」第6回支援研報告資料をもとにして作成された。
はじめに
これまで聴覚障害者のための情報保障支援の方法としては、手話通訳、ノートテイク、パソコン要約筆記などが用いられてきた。このうち手話通訳は他とは異なるが、ノートテイクやパソコン要約筆記は文字をなんらかの媒体に書いて情報を伝えるという点で一致している。本報告では、この文字を書いて情報を伝えるという点に着目したいと考える。
かかる観点から本報告で注目するのは、音声を文字に自動変換するソフト(以下、「音声認識」)を用いた情報保障支援の仕組みである。報告者は、共同研究者である坂本や鹿島とともに、2009年9月26日、27日に開催された第6回障害学会大会において、AmiVoiceという音声認識を用いた情報保障システムの試用実験を実施した。本報告では、音声認識を用いた聴覚障害支援の現状と課題を報告するとともに、試用実験結果を報告することを目的とする。
1. 音声認識を用いた情報保障方式の分類
音声認識を用いた情報保障とはどのようなものかを説明する。それは基本的に発言者の音声を、音声認識エンジンを搭載したパソコンで認識して文字化し、そしてそのままでは誤字などが多くあるので、文字化されたものを校正し、その校正したものをスクリーンなどに呈示するという情報保障システムである。ただし、この情報保障システムにはいくつかの方式がある。本報告では、それらを便宜的に以下のように分類して提示したい。
まず、【T】話者入力方式がある。これは発言しているその人の音声をマイクで拾い、認識する方式のことである。この方式のメリットとしては人件費が安くなることが挙げられるが、現段階の技術では認識精度が5〜7割になるというデメリットもある。
次に、【U】復唱入力方式がある。これは発言者Aの言葉をBが聞き、BがAの言葉を発声しなおし、そのBの声を音声認識する方式のことである。これには認識精度が8割台から、訓練すれば9割程度にもなるというメリットがある。しかし、その一方で、復唱者の人件費がかかること、復唱自体の難しさがあることなどのデメリットが挙げられる。復唱は人によって向き不向きがあり、最初からある程度こなせる人もいれば、訓練しても全くこなせない人もいる。
大きくはこの二つの入力方式に分類されるが、復唱入力方式はさらに二つに分類される。【U-T】要約文復唱方式と、【U-U】原文復唱方式である。【U-U】は発言者の言葉を正確に復唱するだけであるので、特別なスキルは復唱能力以外に必要なく、音声認識率も高い(後で詳しく述べる)。しかし、話し言葉がそのまま文字になって呈示されるので、呈示文が読みにくいというデメリットがある(中野他2006; 2007)(1)。対して、【U-T】は復唱能力に加えて、発言を要約する技術が必要となり、さらに、認識率も低くなるというデメリットがある(後で詳しく述べる)。しかし、呈示される文章は文法的に正しいものが呈示されることになるので、読みやすいというメリットがある。
以上の分類に加え、復唱者の位置による分類もある(三好他2007)。
【a】近接方式と呼ぶ方式は、復唱者が発言者と同じ部屋に居る方式のことである。この場合、復唱者の声が発言者の妨げにならないようにマスク型マイクロホンを用いるなどの工夫が求められる。ただ、マスク型マイクロホンには、その使用のために多くのノウハウの習得が必要となること、認識精度がよくて8割、わるければ0割にまで落ち込むことなど、問題点が多くある。しかしながら、【a】には準備する機材が少なくてよいなどのメリットもまたある。
【b】遠隔方式と呼ぶ方式は、復唱者が発言者と違う部屋に居る方式のことである。この場合、無線LANなどを使用して、別室に発言者の音声を飛ばす必要があり、そのための各種機材が必要となる。また、部屋を余分に用意しなければならない。そのようなデメリットはあるものの、それは発言の妨げにならないメリットに比べれば小さなものである。そのため、一般的には【b】の方式が用いられている(「音声認識によるリアルタイム字幕作成システム構築マニュアル」編集グループ編2009:8)。
ここまでは音声入力の方式についての分類であった。音声を入力し、それを音声認識で文字化したあと、それをPCで校正する必要がある。その校正の方式も大きく2つに分類できる。
【@】音声遅延方式は、発言者/復唱者の音声が校正担当者用PCに文字化して届くまで時間がかかることから、あえて発言者/復唱者の音声を遅延させてその時間差を埋める方式のことである(「音声認識によるリアルタイム字幕作成システム構築マニュアル」編集グループ編2009:33)。これには、音声遅延再生用ソフトウェア「SR-DELAY」やVideoBOXと呼ばれる機械が用いられる。この方式は、校正者が発言者/復唱者の音声を記憶して校正することになるので、誤字修正の精度はやや低くなり、訓練も必要となる。字幕化までのタイムラグは10秒程度である。
【A】録音方式は、発言者/復唱者の音声を録音して校正する方式である。そのため、万が一聞き逃したとしても、もう一度聞きなおして校正することが可能なことから、誤字修正の精度は高くなる。しかし、タイムラグは非常に大きなものとなるデメリットがある。
以上をまとめると、音声認識の方式には、【T】(話者が校正も行なう)(2)、【T+@】、【T+A】(3)、【U-T+a+@】、【U-T+b+@】、【U-T+a+A】、【U-T+b+A】、【U-U+a+@】、【U-U+b+@】、【U-U+a+A】、【U-U+b+A】の11通りの方式があると分かる。
2. 音声認識を用いた情報保障の先行研究
音声認識を用いた情報保障については、すでに多くの先行研究がある。その先行研究からうかがい知ることができるように、音声認識は今のところ、ソフトがあればすぐ簡単に、誰もが使うことが出来る技術ではない。
第一に音声認識精度を高めるための話し方というものがある。これには、認識されやすいようにハッキリと発話するのはもちろんのこと、抑揚のない淡々とした話し方、パ行、マ行、イ列、エ列の発音対策として口を大きく動かすこと、タ行、パ行の無声音や語尾を大きめに発音することなどが挙げられる。それらを意識しつつ、復唱を行なうことはさらに難しい。たとえば、井野他(2003)によれば、発声・発話トレーニングを受けた民放アナウンサーと一般の大学生では、その復唱精度、音声認識精度ともに前者の方が高いという結果が出たとのことである (4)。
第二に字幕呈示方法についても見やすい呈示方法が模索されていることがある。たとえば、基本的なところでは、画面は黒くし、字は白くした方が読みやすい。また、中野他(2008)によれば、字幕の改行は「句点および25文字前後の読点で改行」する方が、「改行なし」、「句点で改行」、「句読点で改行」するより読みやすいということである。さらに、一行分の文字数は短い方がよいかもしれないともしている。
それでは、音声認識をしかるべき形で運用するとどうなるか。黒木他(2003;2006)の実験結果によれば、訓練された復唱による認識率は90%で、校正者4名の手による校正後の認識率は97.2%にも達している。字幕化までのタイムラグも11秒と短く、実用可能なレベルにあるということがここからわかる。しかし、訓練された復唱者と校正者4名にかかる人件費を考えると、実際の運用はまだまだ難しいのが現状といえるだろう。
3. 障害学会における音声認識を用いた情報保障の試験的運用
2009年9月26日に開催された第6回障害学会大会シンポジウム「障害学生支援を語る」で【T】話者入力方式を、同年同月27日の同大会におけるシンポジウム「障害と貧困――ジェンダーの視点からみえてくるもの」において、【U-T】要約文復唱方式と【U-U】原文復唱方式を採用した、音声認識エンジンAmiVoiceを用いた情報保障支援の実験を行なった。
3.1 実験機材
AmiVoiceとは、音声認識エンジンのことで、その応用例の一つである「議事録作成支援システム」(以下「支援システム」)を本実験では用いた (5)。
「支援システム」は、以下のようなソフトから成り立っている。第一に音声を認識し、それを文字化する「AmiVoice Recorder」(150万円/1ライセンス、以下「レコーダー」)。第二に音声認識結果を編集するための「AmiVoice Rewriter」(50万円/1ライセンス、以下「リライター」)。第三に認識結果を向上させるための「言語モデルカスタマイズ」(300万円) (6)。複数台のリライターを用いて、リアルタイムで議事録を作成するための「ControlServer」(50万円/1ライセンス。以下、「コントロール・サーバー」)。そして、今後商品化されることになるという、認識結果をリアルタイムで表示する「ControlServerViewer」(以下、ビューアー)である (7)。
今回、「支援システム」を用いた聴覚障害者のための情報保障支援システム(以下、「情報支援システム」)には3台のパソコンを用いる。これら3台のパソコンは、ルーターを介して、無線LANでつながれている(つまり、本システムは【b】遠隔方式を採用している)。以下、図を参照しながら解説する。
パソコン1ではレコーダーとリライターを使用する。レコーダーで音声を録音するため、パソコン1にオーディオ・インターフェイスをつなぎ、それをワイヤレス・レシーバーにつなぐ。ワイヤレス・レシーバーは、話者の持つワイヤレス・マイクロホンから送られてくる電波を受信、オーディオ・インターフェイスによってノイズが除去され、そのノイズが除去された音声をレコーダーで録音し、コントロール・サーバーで認識することで、音声をテキスト化することが可能となる(つまり、本システムは【A】録音方式を採用している)。そのテキストをリライターで編集し、誤認識を修正する。
パソコン2はリライターのみを使用する。1台だけで誤認識を修正することは、かかる時間の観点からも、また修正者にかかる負担の観点からも効率的ではない。そこで、本実験では2台のパソコンを用いて誤字修正を施すことにした。
パソコン3はコントロール・サーバーとビューアーを使用するためのパソコンで、同パソコンをプロジェクターにつなぐことで、誤認識修正後の音声認識結果をスクリーンに表示させる。パソコン3が、3台のパソコンの中で最も負荷がかかるパソコンであるので、3台の中では一番スペックの高いパソコンを使用した。
3.2 実験結果
実験は【A】認識率、【B】字幕呈示までのタイムラグ、【C】誤字修正におけるミスの三点に注目して行なった。復唱者にはベテランのパソコン要約筆記者2名を15〜20分交代で配置した。この2名はパソコン要約筆記のベテランであって、復唱に慣れていたわけではない。校正者は同時に2名に当たらせ、数十分ごとに交代した。校正にあたった者は、パソコン要約筆記などについての経験が全くなく、大半が「情報支援システム」に触れること自体初めてであった。
【A】は3.1で記したように【b】と【A】を前提としつつ、【T】話者入力方式、【U-T】要約文復唱方式、【U-U】原文復唱方式について、それぞれの認識率を調査した。これは各方式について無作為に1分間の文章を抽出し、その認識率を10回計算したものである。
結果は以下のとおりになった。【T】は、認識率のレンジが16.4-75.0%、平均は38.9%、標準偏差は20.7であった。【U-T】は、認識率のレンジが24.3-68.5%、平均は41.2%、標準偏差は14.5であった。【U-U】は、認識率のレンジが46.2-70.7%、平均は58.4%、標準偏差は8.2であった。
以上から認識率がもっともよかったのは【U-U】原文復唱方式であったことが明らかになった。その標準偏差からも【U-T】要約文復唱方式と【T】話者入力方式に比べて、【U-U】は明らかに高い認識率を示していることが分かる。
【B】は60分間のタイムラグを計った結果である。シンポジウム開始直後には10秒のタイムラグであったのが、15分後には3分強、30分後には9分強、45分後には15分半、60分後には24分半強と、時間が経つごとにそのタイムラグは大きくなっていった。言うまでもないことだが、24分半強のタイムラグは実用に耐えうるタイムラグではない。
【C】はシンポジウム開始15分間と終了前15分間の誤字、脱字、同一句・文の反復、句読点ミスの数を数えたものである。前者は誤字33、脱字22、同一句・文の反復17、句読点ミス10であるのに比べ、後者は誤字25、脱字10、同一句・文の反復2、句読点ミス13と、その数は句読点ミスを除き全体的に減少している。これは校正者が慣れてきたからという要因が考えられる (8)。
4. 考察
実験結果から明らかになったことを考察とともにまとめる。
第一に【T】話者入力方式、【U-T】要約文復唱方式、【U-U】原文復唱方式いずれの方式においても、今回の実験結果は先行研究の結果よりも悪いものとなった。理由としては、以下のようなものが考えられる。この実験は、長年情報保障支援の研究に携わっていた専門家の手によって実施されたものではなく、しかも「情報支援システム」の実践投入はこのときがはじめてであった。そのため、実験には予測していなかった弊害が生じることとなった。具体的にいえば、復唱者は別室で復唱することとなっていたのだが、ヘッドホンの不調でシンポジストの音声が入らず、そのため急遽舞台袖で復唱作業を行なうこととなったのである。このため、精確な音声認識に必要な声量を確保することができなかった。また、500人ほどが収容できるホールでのシンポジウムということで、シンポジストは別のハンドマイクを持って発話していた。このハンドマイクの音声を舞台袖の復唱者のマイクが拾ってしまい、それも音声認識が乱れる原因となったと思われる。この問題は、【a】近接方式で起こりうる問題といえる。つまり、形式としては【b】遠隔方式の形式をとったつもりであったが、現実としては【a】近接方式での実験になってしまっていたのである。以上のような弊害から、認識率が先行研究より大幅に低下したものと考えられる。ここから分かることは、【b】遠隔方式をとるためには、復唱作業を行なう別室を用意することが絶対条件であること、別室で作業をするにあたっては入念な準備をする必要があることである。
第二に、そのような悪条件下であっても、【U-T】要約文復唱方式と【U-U】原文復唱方式には明らかな違いが見られた。これは前者が復唱技術と要約技術の両方を同時に使用するのに比べて、後者は復唱技術の使用だけでよい点から生じた違いではないかと思われる。しかし、これについては厳密な実験を行なって確認する必要がある。
第三に、【A】録音方式による校正は【@】音声遅延方式による校正よりもタイムラグが大きい可能性が示唆された。この理由として考えられることは、前者の場合、何度も聴きなおせることから、誤字脱字のチェックが入念になることが挙げられる。チェックをするたびに録音した音声を聴きなおす必要があるため、その分だけタイムラグは大きくなっていく。とはいえ、これも仮説にすぎないので、今後、先行研究と同じ校正者4名体制で確認する必要があるかと考える。また、今回の実験では、校正者がリアルタイム編集を初めて経験する者ばかりで、かつ専門単語の辞書登録もしていない状態であったという要因もある(音声認識エンジンの言語モデルカスタマイズは行なっていた)。校正者を訓練し、なおかつ辞書登録なども行なっていたならば、タイムラグはもう少し小さなものになっていたことが推測される。
最後に、今回の実験から明らかになった最大のポイントは、十分に訓練されていない復唱者と校正者のもとでは、音声認識を用いた情報保障支援システムをツールとして使うことは難しいということである。音声認識は今のところ、ソフトがあればすぐ簡単に、誰もが使うことが出来る技術ではないと先に述べた。このことは、本実験からも明白であると考える。
おわりに
以上の本報告から6つの課題を挙げることが出来る。@【U-T】要約文復唱方式と【U-U】原文復唱方式の比較作業の精緻化、A校正作業における録音・音声遅延方式の比較作業の精緻化、B校正者の陥りやすい間違いの分析、C復唱者・校正者育成プログラムの開発、D復唱者・校正者の〈真の支援体制〉確立までにかかる時間と費用の推計、E安価な音声認識エンジンによる字幕化システムの分析、以上である。
最後の点については、筑波技術大学の音声認識を用いた聴覚障害情報保障システムの追試、群馬大学教育学部における同システムの視察など、すでに取り組みを始めている。しかし、問題点として、字幕システムを使用する聴覚障害当事者との連携がとれていない点が挙げられる。本報告を通じて、そうした聴覚障害当事者の方にも音声認識を用いた情報保障支援システムに興味を持っていただけたなら幸いである。
(1) ただし、中野他(2008:435)によれば、このことは原文より要約の方がよいことは意味せず、ニーズが分かれるとされている。
(2) 三好他(2007:145)では、発話者単独タイプとして紹介されている。
(3) 校正者については同じ部屋にいるか違う部屋にいるかは大きな問題とはならないため、復唱者がいない【T】においては【a】、【b】の分類を無視することとした。
(4) 復唱精度はアナウンサー96%、大学生86%、音声認識精度はアナウンサー90%、大学生65%であった。
(5) 一つ断っておかなければならない点は、「支援システム」がそもそも聴覚障害者の情報 保障支援のためのツールとして開発されたのではないという点である。それは、あくまで議事録を残すために作成されたシステムであり、本研究ではそれを応用 しているにすぎない。よって、たとえば今後、聴覚障害者の情報保障支援の実験結果が芳しくないことがあったとしても、それは議事録作成を目的とした「支援 システム」の使用価値、ならびにAmiVoiceの使用価値を下げるものでは決してないことだけ銘記しておく。付言すれば、議事録作成ソフトとしては録音機能もあることなどから、大変優れたソフトであると考える。
(6) 本実験のために、以下のデータを用いて言語モデルのカスタマイズを行なった。
[音声データ+テキストデータ=vtext]
・立命館大学大学院先端総合学術研究科 公共論史(担当講師:立岩真也):18時間
[テキストデータ]
・岡原正幸・立岩真也, 1995, 「自立の技法」, 安積純子・尾中文哉・岡原正幸・立岩真也, 『生の技法―─家と施設を出て暮らす障害者の社会学』, 藤原書店, 第6章, pp.147-164
・――――, 1995, 「「出て暮らす」生活」, 安積純子・尾中文哉・岡原正幸・立岩真也, 『生の技法―─家と施設を出て暮らす障害者の社会学』, 藤原書店, 第2章, pp.57-74
・――――, 1995, 「はやく・ゆっくり──自立生活運動の生成と展開」, 安積純子・尾中文哉・岡原正幸・立岩真也, 『生の技法──家と施設を出て暮らす障害者の社会学 増補改訂版』, 藤原書店, 第7章, pp.165-226
・――――, 1995, 「私が決め、社会が支える、のを当事者が支える──介助システム論」, 安積純子・尾中文哉・岡原正幸・立岩真也, 『生の技法──家と施設を出て暮らす障害者の社会学 増補改訂版』, 藤原書店, 第8章, pp.227-265
・――――, 1995, 「自立生活センターの挑戦」, 安積純子・尾中文哉・岡原正幸・立岩真也, 『生の技法──家と施設を出て暮らす障害者の社会学 増補改訂版』, 藤原書店, 第9章, pp.267-321
・立岩真也, 2000, 『弱くある自由へ――自己決定・介護・生死の技術』, 青土社
・立岩真也, 2004, 『ALS――不動の身体と息する機械』, 医学書院
・2008, 「異なる身体のもとでの交信――本当の実用のための仕組と思想」, 科学研究費・新学術領域研究(研究課題提案型)提出書類(一部略)
・2009, 「第6回障害学会大会報告要旨」
(7) 以上のソフトに加え、別途用意したものとしては、音声を吹き込むためのタイピンマイクセット二つ(UT16A+MR-SU3、UHFワイヤレス・レシーバーATW-R103/P)、音声を認識する際、そのノイズは可能な限り除去した方がよいので(AmiVoiceには、すでに強力なノイズ排除技術が搭載されているが)、ノイズを除去するための装置であるオーディオ・インターフェイス「EDIROL 24bit96kHz USB Audio Capture UA-25EX」などである。また、各種ソフトの詳しい説明については、櫻井・鹿島・池田(2009)を参照。
(8) 同一句・文の反復は、リライターの設定である程度解消可能であることが、実験後明らかになった。
〈参考文献〉
井野秀一他(2003)「聴覚障害者の会議参加支援を目的としたリアルタイム音声字幕化システムの設計」,『計測自動制御学会第18回生体生理工学シンポジウム論文集』,221-224.
「音声認識によるリアルタイム字幕作成システム構築マニュアル」編集グループ編(2009)『音声認識によるリアルタイム字幕作成システム構築マニュアル』,筑波技術大学.
金澤貴之他(2009)「ICTを活用した聴覚障害学生支援――キャンパス間連係入力と音声同時字幕システムの活用事例から」『群馬大学教育実践研究』,26,107117.
黒木速人他(2003)「聴覚障害者の国際会議参加支援のための遠隔型音声字幕化システム:札幌-横浜間におけるシステム運用とその評価」,『ヒューマンインタフェース・シンポジウム2003論文集』,729-732.
黒木速人他(2006)「聴覚障害者のための音声同時字幕システムの遠隔地運用の結果とその評価」,『ヒューマンインタフェース学会論文誌』,8(2),255-262.
櫻井悟史他(2009)
「音声認識ソフトを用いた学習権保障のための仕組み」
,障害学会第6回大会ポスター報告.
坂本徳仁, 2009, 「音声認識エンジンを用いた聴覚障害者支援の実現可能性について」第6回支援研報告資料
中野聡子他(2006)「音声認識技術を利用した字幕呈示システムの現状と課題:音声言語と文字言語の性質の違いに焦点をあてて」,『群馬大学教育実践研究』,23,251-259.
中野聡子他(2007)「音声認識技術を用いた聴覚障害者向け字幕呈示システムの課題:話し言葉の性質が字幕の読みに与える影響」,『電子情報通信学会論文誌D』,J90-D(3),808-814.
中野聡子他(2008)「聴覚障害者向け音声同時字幕システムの読みやすさに関する研究(1):改行効果に焦点をあてて」,『ヒューマンインタフェース学会誌』,10(4), 435-444.
福島智他(2006)「音声認識技術を活用した字幕呈示システムの開発研究及び運用における諸課題――利用者の観点を中心に」『群馬大学教育学部紀要 人文・社会科学編』,55,179-186.
牧原功他(2008)「音声認識技術による字幕運用の課題」『群馬大学留学生センター論集』,7,33-50.
水島昌英他(2006)「音声認識を用いた会議支援情報保障システムに対する話者の発話行動の分析」,『信学技報』,WIT2006-108,21-26.
三好茂樹他(2007)「音声認識技術を利用した字幕作成担当者のための支援技術とそのシステム開発」,『筑波技術大学テクノレポート』,Vol.14, 145-152.
三好茂樹(2008)「音声認識技術を用いた情報保障(20)」,PEPNet-Japan Tip Sheet.
*作成:
櫻井 悟史
UP:20100324 REV:20100326
◇
全文掲載
◇
シンポジウム「聴覚障害者の情報保障を考える」
◇
音声認識を用いた聴覚障害者支援
◇
AmiVoice
TOP
HOME (http://www.arsvi.com)
◇