HOME > 異なる身体のもとでの交信 > 情報・コミュニケーション/と障害者 >

音声認識を用いた聴覚障害者支援


last update: 20100324

聴覚障害者のための情報保障についての基礎知識――音声を文字化することに注目して
音声認識を用いた聴覚障害者のための情報保障方式の分類
音声認識を用いた聴覚障害学生支援についての先行研究
音声認識を用いた会議情報保障支援についての先行研究
第6回障害学会大会における音声認識を用いた聴覚障害者支援実験の結果
参考文献
参考webページ

AmiVoice


■本ページの目的:これまで聴覚障害者のための情報保障支援の方法としては、手話通訳、ノートテイク、パソコン要約筆記などが用いられてきた。このうち手話通訳は他とは異なるが、ノートテイクやパソコン要約筆記は文字をなんらかの媒体に書いて情報を伝えるという点で一致している。本ページは、この文字を書いて情報を伝えるという点に着目したものである。

※1 本ページは作成中のページである。
※2 []内はページ作成者による補足
※3 本ページの文責:櫻井 悟史

>TOP

◆聴覚障害者のための情報保障についての基礎知識――音声を文字化することに注目して

以下、◇日本聴覚障害学生高等教育支援ネットワーク(PEPNet-Japan)「トピック別聴覚障害学生支援ガイド――PEPNet-Japan TipSheet集」編集グループ, 2008, 『トピック別聴覚障害学生支援ガイド』筑波技術大学障害者高等教育研究支援センター、より。「」が ない箇所は、ページ作成者が再構成したメモ。

●高等教育における聴覚障害学生支援 白澤麻弓(10-12)
・聴覚障害学生の感じる困難(10)
 ・友達との会話に入れない
 ・討議についていけない
 ・連絡や放送がわからない
 ・連絡が取れない
 ・非常時の情報が得られない

「聴覚障害者の多くが、「内容を理解するだけなら、後でノートを借りればよい。けれどもそれだけでは自分が何のために大学に入学し、授業に出席しているのかわからない」という意見を述べています。そこで、聴覚障害学生がこうした[資料に載っていない話、日常的な経験と結びつけた解説、教員の人間性や研究に対する姿勢に触れる話等]授業におけるたくさんの情報を他の学生と共有するためにも、先生方のお話やその他の音情報をリアルタイムに文字や手話に変える「情報保障者(講義保障者)」あるいは「通訳者」の存在が不可欠なのです」(11)

・情報保障(講義保障)の方法
 (a)手話通訳:手話を用いて行なう方法
 (b)筆記を用いて行なう方法
 (b-1)ノートテイク:手書きでルーズリーフ等に話の内容を記載していく方法
 (b-2)パソコンノートテイク:(b-1)と同様の作業をパソコンで行なうこと

「確かに聴覚障害学生をとりまく学生達が、聞こえないという障害について理解し、必要なサポートを行っていくことは非常に重要です。しかし、手話通訳やノートテイク、パソコンノートテイクといった情報保障には、高度な技術と専門知識が必要で、そのような技術を持たない学生では十分な保障ができない場合も多くあるのが事実です」(12)

「聴覚障害学生とまわりの学生との人間関係への配慮からも、専門性のある第三者を情報保障者として正式に授業に配置していくことが重要です。同時に、単に無償のボランティアではなく、技術に見合った報酬を支払うのも重要な大学としての責務のひとつです」(12)

●情報保障の手段 岩田吉生(25-27)
(b-1)ノートテイク:1コマ90分の授業をノートテイカー1名で担当するのは、手指や腕などの筋疲労や精神的負担の面から非常に困難である。そのため、一般にはノートテイカー2名を配置し10〜15分ごとに交代しつつ進める。
(b-1-1)通訳としてのノートテイク:教員が話している内容をできるだけたくさん書き上げていく。
(b-1-2)記録としてのノートテイク:手話通訳を活用するときに授業内容をコンパクトにまとめていく。
 熟練したノートテイカーの場合、1分間に60〜70時程度の書き取りが可能。

(b-2)パソコンノートテイク:メリットは、プロジェクターや字幕出力機器とスクリーンを活用することで、一度に多くの聴覚障害学生に情報保障を行なうことが可能である点。1名でパソコンの文字入力の作業を進めることは疲労度の観点から望ましくなく、2名1組で行なうことが望ましい。
 少し練習すれば1分間に100字以上の入力が可能。熟練した入力者であれば1分間に200字以上の文字入力が可能となる。2名で連係して入力すると、さらに多くの情報を入力することも可能。

(b-3)OHP(オーバー・ヘッド・プロジェクター)ノートテイク:一般的には2名以上の筆記者によって文字情報を書き取っていき、大型のスクリーンにその文章を拡大投影する方法。近年はOHC(オーバー・ヘッド・カメラ)を利用して、文章以外の図表、写真も映し出す試みがなされている。

(b-4)音声認識ソフトによる音声認識同時字幕システム:話者の音声をパソコンの音声認識ソフトを活用して文字化し、パソコンの画面やスクリーンに表示する方法。現在、国際会議や放送局の字幕など、さまざまな場面で利用されている。
「このシステムでは、音声認識ソフトの特性を活かして、話者の声を直接認識させるのではなく、特定の訓練された人(同時復唱者)が復唱して認識させることで字幕精度を上げ、実用化しています。また、同時修正者が誤変換を修正する作業を入れることでさらに精度の高い字幕を提供することができます」(26)

(c)その他の情報保障手段
(c-1)板書
(c-2)授業資料
(c-3)ビデオやDVDの字幕化
(c-4)FM補聴器の貸し出し

●文字による支援方法 三好茂樹(28-30)
「「文字による支援」とは、教員などが発した音声を何らかの方法で文字に変換し、聴覚障害学生に提示することによって、聴覚障害学生を授業に実質的に参加させるための支援(授業保障)のこと」(28)
「講師の発話速度はまちまちですが、例えば、発話することを一つのスキルとして持つアナウンサーの話す速度は通常1分間あたり350文字から400文字と言われています」(28)

(b-3)OHPノートテイク:通常3〜4名で担当。メインの筆記者、補助の筆記者、ロールフィルム[このフィルムに油性ペンで文字を記入]をタイミングよく引く引き手で連係して実施。担当者はOHPの強い光から目を守るために偏光グラスをかけ、フィルムに貼り付かないように手袋を着用。効率よく情報を伝えるために、よく使う言葉や長い固有名詞をあらかじめちいさなフィルムに記入しておくなどの工夫をすることがある。パソコンノートテイクの普及により、OHPの利用は減少してきたが、記号や数式など手書きでないと対応が困難な場面では、引き続き有効。

(b-2)パソコンノートテイク:一般的には専用ソフト(IPtalk、まあちゃん等)とLANを用い、入力者のパソコンで入力された文字を表示用のパソコンにネットワークを介して送信し、その画面を提示する。1文を複数人で入力する連係入力を用いれば、原文の8割程度を伝えることが可能。

(b-5)速記による支援:速記技術を応用した文字提示方法。特殊な入力装置(ステノキーボード、ステンチュラなど)を利用し、発話内容をほぼ全て文字化。入力方法が特殊であるため習得に時間がかかる。そのため、人員の確保が今後の課題となっている。

(b-4)音声認識ソフトによる音声認識同時字幕システム:現在のところ、教員が発話した音声そのままでは十分な認識精度が得られず、情報保障としては不十分である。そのため、復唱者を置いているグループが大半。

●パソコンノートテイク その特徴と活用 太田晴康(34-36)
 パソコンノートテイク(computer-assisted notetaking)に必要な専門知識と技術。
(1)素早い文字入力操作(1分間あたり100時(ミスタッチを除く)以上の入力速度が望ましい)
(2)ソフトの機能の活用(単語の辞書登録など)
(3)LAN(local area network)の知識
(4)話をまとめる力

(表)36ページから引用。手法という語だけ、ページ作成者が追加した。
手法 情報量と特徴 求められる能力 運営上の課題
手書き 話しことばの約2割。箇条書き、体言止め、略号等を活用。 読みやすい筆記、要点と構造を理解し、構文を作成する力。 支援者が集まりやすいが、定期的な技術研修が欠かせない。
PC1人要約 話しことばの4〜5割。読みやすさに配慮した表示。 PCを筆記用具として使いこなす力。ある程度、要約する力。 PC操作の習熟者を対象にノートテイク技術を指導する。
PC連係入力 話しことばの6〜8割。話しことばにそった多くの情報量。 120〜180字/分の素早い入力速度。連係作業の習熟。 必ず2人が必要。速い話では不整文が現れることもある

●音声認識技術を用いた情報保障 三好茂樹(67-69)
「禁煙、これらの音声認識ソフトウェアの認識率が向上し、聴覚障害者に対する情報保障手段としての利用が注目されています。しかしながら、大まかに言って、通常の会議や講義での発話スタイルのまま音声認識ソフトウェアを利用した場合ではその認識精度は60〜70%台、また未経験者が明瞭に発話するように意識した場合では80%台、ある程度経験を積んで初めて95%前後という高い認識率を実現できるようになるというのが実情です」(67)

「現状と問題点
(1)復唱担当者に求められるスキル
 音声認識ソフトウェアを利用する都合上、字幕作成の品質や量は、その認識率によって大きく左右されることとなります。現在のところ、認識率は95〜97%程度ではありますが、復唱担当者が音声認識に適した発話を行えなかった場合や、初めて利用する場合、著しく認識率が低下することが少なくありません。著しく低下した場合には、校正担当者の負担が増え、複数人での対応が必要になることもあります。そのため、音声認識を用いた情報保障では、この復唱担当者として声を使う職業、例えばアナウンス経験者や司会業経験者の方が担当するケースもあります。
 また、復唱担当者の重要なスキルの一つに音声認識ソフトウェアに適した「話し方」をすることが挙げられます。具体的には、比較的淡々と流暢に文単位で発話する必要があります。感情を込めたり、間を意図的に取ることで聞き手側の内容理解や情景の想像を促すような“朗読”的な方法とは全く異なる「話し方」となります。発話の際、口籠もったりした場合には、正しい認識結果は期待できません。そのため、同一の内容を再度発話し直すなど、校正担当者の負担を減らすような工夫も求められます。
 他に重要なスキルとして復唱技能が挙げられます。この復唱の際に、問題となるのが聴取すべき教員の音声と復唱担当者自身の音声の混合です。復唱担当者は、この混合した音声を聴取しなければならないのですが、これが復唱作業そのものを困難にする原因となります。このような困難さを技術的に補う方法として、遮音性の高いヘッドホンの利用によってある程度軽減できるという報告もあります。また、口や鼻を覆うタイプでのマイクロホンの利用によっても、同様の効果が期待できます」(68-69、強調ページ作成者)

 実施時のコストや養成に要するコスト、字幕の情報量や品質などの調査が必要。

以上、日本聴覚障害学生高等教育支援ネットワーク(PEPNet-Japan)2008より。


以下、◇「音声認識によるリアルタイム字幕作成システム構築マニュアル」編集グループ, 2009, 『音声認識によるリアルタイム字幕作成システム構築マニュアル』筑波技術大学、より。「」がない箇所は、ページ作成者が再構成したメモ。

●復唱方式による音声認識同時字幕の場合、作業は別室で行なうのが一般的。(8)
→マスク型マイクロホンを利用することで、同室作業が可能な場合もある。(11)
→ただし、復唱者の声が外部に漏れることを完全に防げるわけではない。
 「また、マスク型マイクロホンは鼻腔部を覆うために、発話時に口周辺の筋肉の動きに制限を与えます。これが明瞭な発話を妨げることが多く、利用には慣れが必要です。一方、マスク型マイクロホンは音響的にもマスク内部での残響(ノイズの一種)が発声しやすく、これが認識精度を落とす一因となっています」(29)
 つまり、使用には多くのノウハウの週直が必要なので、万人向けではない。しかし、多くの通信機材を準備する必要がないなどのメリットもある。(29)

・講義室からの音声・映像の配信できるフリーソフトとして、Skype、MS-NetMeeting、Yahoo!メッセンジャーなどが挙げられる。また、専用のビデオ会議システムやWebカメラシスムの利用も可。(8)

●このマニュアルで紹介されているのは、AmiVoiceES2008を利用した字幕作成システムである。(12)

●必要な機材:ノートパソコン5台(復唱用PC2台、校正用PC2台、表示用PC1台)、HUB1個、LANケーブルを各PCにそれぞれ1本(計5本)、表示用プロジェクタおよびVGAケーブル1本(字幕をプロジェクタ表示する場合)(19)

・音声遅延再生用ソフトウェア「SR-DELAY」:字幕データと音声との比較作業の負荷を軽減する目的で使用。

●筑波技術大学における情報保障実験等から得たノウハウ
 「復唱担当者の能力を高めるためのトレーニングとしては、北海道大学の研究グループ(現在、東京大学伊福部研究室)の研究報告が挙げられます。これらの研究報告では、トレーニング内容として数分間分の録音音声を聴取して出来るだけ正しく復唱するというタスクを、短いトレーニングとして時間を置いて数回繰り返すだけでも多くの方で復唱の精度がかなり上昇することを報告しています(中には復唱作業自体に不向きな方もいるようです。その場合には校正作業で力をふるって貰うという選択肢もあります)」(37、強調はページ作成者)

 「復唱に慣れないうちは、講師音声の聴き貯め(記憶)が難しく、それを補うために早めについて行こうと心がけてしまいがちになる方もいます。そうした場合、講師の発話の躓きや言い直しに対応できず、最終的な認識率も落ちてしまうことがあります」(39)

 「AmiVoiceは精度的な利点は高い一方、連続発話時においては文字データ確定までの時間が他のソフトウェアより長いので、意識的に発話文同士に1秒程度の間を入れて発話する必要があります」(39、強調はページ作成者)

・実験的な情報保障を経験した復唱担当者側の工夫・注意点
「・発話しづらい言葉、または認識されづらい言葉を復唱する場合には、意識してゆっくりと発話するように心がける。
 ・認識しにくそうな単語はハッキリ言うようにする(特に、マ行やナ行など)。
 ・認識されやすい復唱のために、ハッキリと発話する。
 ・何を言っているのか予測・理解できない講師音声の場合には、多めに聴き貯めをして復唱する。
 ・ほとんど正確に認識されないことが判っている単語の場合には、直接キーボードで入力して送信する。その後、復唱で全文を完成させる。
 ・「指示語→具体的な名詞」への置き換えを行う。
 ・文の区切りをつけ、校正担当者への1回の送信文が複数個の文章に及ばないようにする。(細かな文や文節単位で、校正担当者へ割り当てられる様に注意する)
 ・誤りが一定しない場合には、自動置換の機能は意味がない。
 ・専門用語は予め、音声認識ソフトウェアに登録しておく」(39-40)

・復唱者は通常20分程度で交代。しかし、講師の発話速度にもよるが、20〜30分程度、または30〜60分程度でも大丈夫な者もいる。(40)

・校正担当者について(40-41)
 ・作業のポイント:キーワードや数字を暗唱するよう工夫し、できるだけ頭の仲で保持するよう心がける。
 ・字幕データ到着後に該当音声(遅延音声)が聞こえてくれば、校正作業も容易になるが、常にそういう状況が発生するわけではない。つまり、遅延音声との照合作業においても、講師音声の聴取と記憶・保持が重要なスキルとなる。
 ・「校正担当者は、このような【講師の音声:「この魚はいくらですか」、音声認識結果:「この坂俳句らですか」】「音韻的には類似はしているが、全くことなる漢字仮名交じり文」の照合を行わなければならないことが多くあるということを、予備知識として知っておくべき」(41)
 ・校正作業のコツ
 「・校正作業時、他の校正担当者の校正状況を確認して、各文章の接続部分に注意する。
  ・校正に遅延が生じた場合には、句読点の確認よりも、数値や語句に間違いが無いかの確認を優先する。
  ・特に、講師の発話内容に含まれる数値は記憶しておくようにする。
  ・講師の発話内容に含まれる数値や専門用語を暗唱し続け、作業に備える。
  ・校正すべき字幕データが貯まると、記憶が薄れ、正しく校正できているかどうか自信が無くなる。そうなると校正作業も遅れだし、字幕表示までの時間遅延も増えるという悪循環に陥るので、忘れた場合には他の校正担当者や手の空いている復唱担当者に積極的に助けを求めるようにすると良い」(41)

・別室(遠隔)からの情報保障時の講師映像の必要性(43)
 講師側の映像は、情報保障者のストレス軽減に大きく寄与するようである。

●群馬大学における音声認識技術を活用した字幕呈示システムの運用の取り組み――聴覚障害学生の発言権を保障していくための工夫 金澤貴之・味澤俊介(44-49)
・「音声認識技術による字幕呈示の場合、話し手の音声情報を変えることなく、情報保障ができるという点に大きなメリットがあるといえます。しかしその反面、聴覚障害学生が情報の一方的な受け手になってしまい、自ら主体的に発言をしていくことが難しくなってしまうという点に、どのように配慮していくかが課題であるともいえます」(44)

・群馬大学の場合、防音機能を備えた復唱室で復唱作業、修正作業を行なう。
・教室から復唱室への音声の送信は、基本的にSkypeを使用(環境が整っていれば内線電話を優先)。
・修正者は、音声遅延装置により4秒遅延された音声をヘッドフォンで聞き、Skypeで送られてきた教室の映像を見ながら修正作業をする。
・文字色や文字の大きさは個々の利用者に合わせて設定。特に希望がない場合は、句読点での改行を行ない、背景色を「黒」、文字色を「白」にする。

・話し手特有の言い回しや用語を聴覚障害学生も味わい、他の学生と授業の臨場感を共有するためにできるだけ要約はせず、講師の話した言い回しをなるべくそのまま示すようにしている。

・プロジェクタでスクリーンに字幕を表示して授業する場合は、「情報保障は、聴覚障害学生のためのものだけではなく、そこにいる双方が情報を共有するために存在する」(45)ということを参加者全員に理解してもらうことが重要。

・復唱者、修正者は日常的に連係入力によるPCテイクを行ない、十分に習熟している学生テイカーに依頼。

・話者交代を伴う授業[ゼミやディスカッションのある授業]で音声認識システムを運用する場合は、教室内の全員が字幕を意識して話をする必要がある。
→具体的な工夫の方法:1、音声が重ならないようにすること。2、話者交代の場合には、話し手が最初に「○○です」と自分の名前を言ってから発言を始めること。
→「これらのルールを設けることは、確かに、利用者にとっては日常の会話パターンと大きく異なる方法での会話を強いられることになり、ストレスがかかります。しかし、逆にこうしたルールを設けないことは、復唱者・修正者に過度の負担がかかり、あわせて聴覚障害学生が発言できない状況を作り出してしまうことになります」(46)

・ルールの徹底のための具体的な工夫の1つとして、あえて1本のマイクを使用し、発言をする際にはそのマイクを相互に利用するという方法がある。

・その場にあった事前の単語登録重要。

・復唱者と修正者が同じ部屋で作業をすることは、必ずしもデメリットではない。

・「誤認識がほとんどなく、シンポジウムや式典などの公的な場での表示に十分に耐えうる字幕を作成するには、十分に作業に慣れた復唱者2人と修正者2人による体制で、事前に単語登録を十分に行うことが必要」(48、強調はページ作成者)

・「群馬大学では、復唱者・修正者が慣れるまでのしばらくの間は復唱者2人(10分交代)、修正2人の4人体制で臨み、その後、復唱者2人、修正者1人とした上で、10分ごとに交代する復唱者のうち、休んでいる側の者が、修正の補助に回るという方法を採用しました。このことにより、3人体制による運用を実現することができました。2人体制で運用ができればコスト的にもより利用する機会は増やせるのかもしれませんが、現実問題として、2人体制にした結果、作業者への負担が大きくなりすぎるか、あるいは(かつ)字幕の誤認識の修正が十分に行えず、「情報保障」として耐えうるだけの字幕の質を保てなくなるおそれがあります」(48、強調ページ作成者)

●「音声認識によるリアルタイム字幕作成システム構築マニュアル」編集グループ
 三好茂樹(筑波技術大学障害者高等教育研究支援センター 准教授)
 磯田恭子(筑波技術大学 障害者高等教育研究支援センター 特人研究員)
 金澤貴之(群馬大学 教育学部障害児教育講座 准教授)
 味澤俊介(群馬大学 学生支援課障害学生支援室 専門支援者)
 立入哉(愛媛大学 教育学部 准教授)
 苅田知則(愛媛大学 教育学部 准教授)
 大倉孝昭(大阪大谷大学 教育福祉学部 教授)
 白澤麻弓(筑波技術大学 障害者高等教育研究支援センター 准教授)
 河野純大(筑波技術大学 産業技術学部 准教授)
 黒木速人(筑波技術大学 産業技術学部 准教授)

以上、「音声認識によるリアルタイム字幕作成システム構築マニュアル」編集グループ2009より。

>TOP

◆音声認識を用いた聴覚障害者のための情報保障方式の分類
(坂本徳仁, 2009, 「音声認識エンジンを用いた聴覚障害者支援の実現可能性について」第6回支援研報告資料を受けて作成された、櫻井悟史, 2010, 「音声認識エンジンを用いた字幕化支援の現状と課題」シンポジウム「聴覚障害者の情報保障を考える」より)

 音声認識を用いた情報保障とはどのようなものかを説明する。それは基本的に発言者の音声を、音声認識エンジンを搭載したパソコンで認識して文字化し、そしてそのままでは誤字などが多くあるので、文字化されたものを校正し、その校正したものをスクリーンなどに呈示するという情報保障システムである。ただし、この情報保障システムにはいくつかの方式がある。本報告では、それらを便宜的に以下のように分類して提示したい。
 まず、【T】話者入力方式がある。これは発言しているその人の音声をマイクで拾い、認識する方式のことである。この方式のメリットとしては人件費が安くなることが挙げられるが、現段階の技術では認識精度が5〜7割になるというデメリットもある。
 次に、【U】復唱入力方式がある。これは発言者Aの言葉をBが聞き、BがAの言葉を発声しなおし、そのBの声を音声認識する方式のことである。これには認識精度が8割台から、訓練すれば9割程度にもなるというメリットがある。しかし、その一方で、復唱者の人件費がかかること、復唱自体の難しさがあることなどのデメリットが挙げられる。復唱は人によって向き不向きがあり、最初からある程度こなせる人もいれば、訓練しても全くこなせない人もいる。
 大きくはこの二つの入力方式に分類されるが、復唱入力方式はさらに二つに分類される。【U-T】要約文復唱方式と、【U-U】原文復唱方式である。【U-U】は発言者の言葉を正確に復唱するだけであるので、特別なスキルは復唱能力以外に必要なく、音声認識率も高い(後で詳しく述べる)。しかし、話し言葉がそのまま文字になって呈示されるので、呈示文が読みにくいというデメリットがある(中野他2006; 2007) )。対して、【U-T】は復唱能力に加えて、発言を要約する技術が必要となり、さらに、認識率も低くなるというデメリットがある(後で詳しく述べる)。しかし、呈示される文章は文法的に正しいものが呈示されることになるので、読みやすいというメリットがある。
 以上の分類に加え、復唱者の位置による分類もある(三好他2007)。
 【a】近接方式と呼ぶ方式は、復唱者が発言者と同じ部屋に居る方式のことである。この場合、復唱者の声が発言者の妨げにならないようにマスク型マイクロホンを用いるなどの工夫が求められる。ただ、マスク型マイクロホンには、その使用のために多くのノウハウの習得が必要となること、認識精度がよくて8割、わるければ0割にまで落ち込むことなど、問題点が多くある。しかしながら、【a】には準備する機材が少なくてよいなどのメリットもまたある。
 【b】遠隔方式と呼ぶ方式は、復唱者が発言者と違う部屋に居る方式のことである。この場合、無線LANなどを使用して、別室に発言者の音声を飛ばす必要があり、そのための各種機材が必要となる。また、部屋を余分に用意しなければならない。そのようなデメリットはあるものの、それは発言の妨げにならないメリットに比べれば小さなものである。そのため、一般的には【b】の方式が用いられている(「音声認識によるリアルタイム字幕作成システム構築マニュアル」編集グループ編2009:8)。
 ここまでは音声入力の方式についての分類であった。音声を入力し、それを音声認識で文字化したあと、それをPCで校正する必要がある。その校正の方式も大きく2つに分類できる。
 【@】音声遅延方式は、発言者/復唱者の音声が校正担当者用PCに文字化して届くまで時間がかかることから、あえて発言者/復唱者の音声を遅延させてその時間差を埋める方式のことである(「音声認識によるリアルタイム字幕作成システム構築マニュアル」編集グループ編2009:33)。これには、音声遅延再生用ソフトウェア「SR-DELAY」やVideoBOXと呼ばれる機械が用いられる。この方式は、校正者が発言者/復唱者の音声を記憶して校正することになるので、誤字修正の精度はやや低くなり、訓練も必要となる。字幕化までのタイムラグは10秒程度である。
 【A】録音方式は、発言者/復唱者の音声を録音して校正する方式である。そのため、万が一聞き逃したとしても、もう一度聞きなおして校正することが可能なことから、誤字修正の精度は高くなる。しかし、タイムラグは非常に大きなものとなるデメリットがある。
 以上をまとめると、音声認識の方式には、【T】(話者が校正も行なう) )、【T+@】、【T+A】 )、【U-T+a+@】、【U-T+b+@】、【U-T+a+A】、【U-T+b+A】、【U-U+a+@】、【U-U+b+@】、【U-U+a+A】、【U-U+b+A】の11通りの方式があると分かる。


>TOP

◆音声認識を用いた聴覚障害学生支援についての先行研究


>TOP

◆音声認識を用いた会議情報保障支援についての先行研究


>TOP

◆第6回障害学会大会における音声認識を用いた聴覚障害者支援実験の結果
 2009年9月26日に開催された第6回障害学会大会シンポジウム「障害学生支援を語る」で【T】話者入力方式を、同年同月27日の同大会におけるシンポジウム「障害と貧困――ジェンダーの視点からみえてくるもの」において、【U-T】要約文復唱方式と【U-U】原文復唱方式を採用した、音声認識エンジンAmiVoiceを用いた情報保障支援の実験を行なった。

・実験機材
 AmiVoiceとは、音声認識エンジンのことで、その応用例の一つである「議事録作成支援システム」(以下「支援システム」)を本実験では用いた )。
「支援システム」は、以下のようなソフトから成り立っている。第一に音声を認識し、それを文字化する「AmiVoice Recorder」(150万円/1ライセンス、以下「レコーダー」)。第二に音声認識結果を編集するための「AmiVoice Rewriter」(50万円/1ライセンス、以下「リライター」)。第三に認識結果を向上させるための「言語モデルカスタマイズ」(300万円) )。複数台のリライターを用いて、リアルタイムで議事録を作成するための「ControlServer」(50万円/1ライセンス。以下、「コントロール・サーバー」)。そして、今後商品化されることになるという、認識結果をリアルタイムで表示する「ControlServerViewer」(以下、ビューアー)である )。
 今回、「支援システム」を用いた聴覚障害者のための情報保障支援システム(以下、「情報支援システム」)には3台のパソコンを用いる。これら3台のパソコンは、ルーターを介して、無線LANでつながれている(つまり、本システムは【b】遠隔方式を採用している)。以下、図を参照しながら解説する。
 パソコン1ではレコーダーとリライターを使用する。レコーダーで音声を録音するため、パソコン1にオーディオ・インターフェイスをつなぎ、それをワイヤレス・レシーバーにつなぐ。ワイヤレス・レシーバーは、話者の持つワイヤレス・マイクロホンから送られてくる電波を受信、オーディオ・インターフェイスによってノイズが除去され、そのノイズが除去された音声をレコーダーで録音し、コントロール・サーバーで認識することで、音声をテキスト化することが可能となる(つまり、本システムは【A】録音方式を採用している)。そのテキストをリライターで編集し、誤認識を修正する。
 パソコン2はリライターのみを使用する。1台だけで誤認識を修正することは、かかる時間の観点からも、また修正者にかかる負担の観点からも効率的ではない。そこで、本実験では2台のパソコンを用いて誤字修正を施すことにした。
 パソコン3はコントロール・サーバーとビューアーを使用するためのパソコンで、同パソコンをプロジェクターにつなぐことで、誤認識修正後の音声認識結果をスクリーンに表示させる。パソコン3が、3台のパソコンの中で最も負荷がかかるパソコンであるので、3台の中では一番スペックの高いパソコンを使用した。
 
・実験結果
 実験は【A】認識率、【B】字幕呈示までのタイムラグ、【C】誤字修正におけるミスの三点に注目して行なった。復唱者にはベテランのパソコン要約筆記者2名を15〜20分交代で配置した。この2名はパソコン要約筆記のベテランであって、復唱に慣れていたわけではない。校正者は同時に2名に当たらせ、数十分ごとに交代した。校正にあたった者は、パソコン要約筆記などについての経験が全くなく、大半が「情報支援システム」に触れること自体初めてであった。
【A】は3.1で記したように【b】と【A】を前提としつつ、【T】話者入力方式、【U-T】要約文復唱方式、【U-U】原文復唱方式について、それぞれの認識率を調査した。これは各方式について無作為に1分間の文章を抽出し、その認識率を10回計算したものである。
 結果は以下のとおりになった。【T】は、認識率のレンジが16.4-75.0%、平均は38.9%、標準偏差は20.7であった。【U-T】は、認識率のレンジが24.3-68.5%、平均は41.2%、標準偏差は14.5であった。【U-U】は、認識率のレンジが46.2-70.7%、平均は58.4%、標準偏差は8.2であった。
 以上から認識率がもっともよかったのは【U-U】原文復唱方式であったことが明らかになった。その標準偏差からも【U-T】要約文復唱方式と【T】話者入力方式に比べて、【U-U】は明らかに高い認識率を示していることが分かる。
 【B】は60分間のタイムラグを計った結果である。シンポジウム開始直後には10秒のタイムラグであったのが、15分後には3分強、30分後には9分強、45分後には15分半、60分後には24分半強と、時間が経つごとにそのタイムラグは大きくなっていった。言うまでもないことだが、24分半強のタイムラグは実用に耐えうるタイムラグではない。
 【C】はシンポジウム開始15分間と終了前15分間の誤字、脱字、同一句・文の反復、句読点ミスの数を数えたものである。前者は誤字33、脱字22、同一句・文の反復17、句読点ミス10であるのに比べ、後者は誤字25、脱字10、同一句・文の反復2、句読点ミス13と、その数は句読点ミスを除き全体的に減少している。これは校正者が慣れてきたからという要因が考えられる )。

・考察
 実験結果から明らかになったことを考察とともにまとめる。
 第一に【T】話者入力方式、【U-T】要約文復唱方式、【U-U】原文復唱方式いずれの方式においても、今回の実験結果は先行研究の結果よりも悪いものとなった。理由としては、以下のようなものが考えられる。この実験は、長年情報保障支援の研究に携わっていた専門家の手によって実施されたものではなく、しかも「情報支援システム」の実践投入はこのときがはじめてであった。そのため、実験には予測していなかった弊害が生じることとなった。具体的にいえば、復唱者は別室で復唱することとなっていたのだが、ヘッドホンの不調でシンポジストの音声が入らず、そのため急遽舞台袖で復唱作業を行なうこととなったのである。このため、精確な音声認識に必要な声量を確保することができなかった。また、500人ほどが収容できるホールでのシンポジウムということで、シンポジストは別のハンドマイクを持って発話していた。このハンドマイクの音声を舞台袖の復唱者のマイクが拾ってしまい、それも音声認識が乱れる原因となったと思われる。この問題は、【a】近接方式で起こりうる問題といえる。つまり、形式としては【b】遠隔方式の形式をとったつもりであったが、現実としては【a】近接方式での実験になってしまっていたのである。以上のような弊害から、認識率が先行研究より大幅に低下したものと考えられる。ここから分かることは、【b】遠隔方式をとるためには、復唱作業を行なう別室を用意することが絶対条件であること、別室で作業をするにあたっては入念な準備をする必要があることである。
 第二に、そのような悪条件下であっても、【U-T】要約文復唱方式と【U-U】原文復唱方式には明らかな違いが見られた。これは前者が復唱技術と要約技術の両方を同時に使用するのに比べて、後者は復唱技術の使用だけでよい点から生じた違いではないかと思われる。しかし、これについては厳密な実験を行なって確認する必要がある。
 第三に、【A】録音方式による校正は【@】音声遅延方式による校正よりもタイムラグが大きい可能性が示唆された。この理由として考えられることは、前者の場合、何度も聴きなおせることから、誤字脱字のチェックが入念になることが挙げられる。チェックをするたびに録音した音声を聴きなおす必要があるため、その分だけタイムラグは大きくなっていく。とはいえ、これも仮説にすぎないので、今後、先行研究と同じ校正者4名体制で確認する必要があるかと考える。また、今回の実験では、校正者がリアルタイム編集を初めて経験する者ばかりで、かつ専門単語の辞書登録もしていない状態であったという要因もある(音声認識エンジンの言語モデルカスタマイズは行なっていた)。校正者を訓練し、なおかつ辞書登録なども行なっていたならば、タイムラグはもう少し小さなものになっていたことが推測される。
 最後に、今回の実験から明らかになった最大のポイントは、十分に訓練されていない復唱者と校正者のもとでは、音声認識を用いた情報保障支援システムをツールとして使うことは難しいということである。音声認識は今のところ、ソフトがあればすぐ簡単に、誰もが使うことが出来る技術ではないと先に述べた。このことは、本実験からも明白であると考える。


>TOP

◆参考文献
・Hoogenboom, Raymond, B., Keiko Uehara, Takayuki Kanazawa, Satoko Nakano, Hayato Kuroki, Shunichi Ino and Tohru Ifukube, 2008, “An Application of Real-Time Captioning System Using Automatic Speech Recognition Technology to College EFL Education for Deaf and Hard-of-Hearing Students”『群馬大学教育学部紀要 人文・社会科学編』57, 95-113.
・福島智・中野聡子・金澤貴之・黒木速人・井野秀一・伊福部達, 2006, 「音声認識技術を活用した字幕呈示システムの開発研究及び運用における諸課題――利用者の観点を中心に」『群馬大学教育学部紀要 人文・社会科学編』55:179-186
 https://gair.media.gunma-u.ac.jp/dspace/bitstream/10087/1156/1/kanazawatakayuki.pdf
・金澤貴之, 2007, 「大学における情報保障に求められること」『聴覚障害』63(10), 19-23.
・金澤貴之・味澤俊介・海野雅史・上田浩, 2008, 「遠隔通信技術を活用した聴覚障害学習支援――キャンパス間連係入力方式の導入事例から」『メディア教育研究』5(2), 55-61.
・金澤貴之・味澤俊介・新津晶子・海野雅史・上田浩・上原景子・レイモンドB.フーゲンブーム, 2009, 「ICTを活用した聴覚障害学生支援――キャンパス間連係入力と音声同時字幕システムの活用事例から――」『群馬大学教育実践研究』26:107-118
 https://gair.media.gunma-u.ac.jp/dspace/bitstream/10087/4732/1/NO26_2009_13.pdf
・黒木速人・井野秀一・中野聡子・堀耕太郎・伊福部達, 2006, 「聴覚障害者のための音声同時字幕システムの遠隔地運用の結果とその評価」『ヒューマンインターフェース学会論文誌』8(2), 255-262.
・牧原功・金澤貴之・福島智・井野秀一・伊福部達・黒木速人・中野泰志・中野聡子(2008)「音声認識技術による字幕運用の課題 ――音声言語を文字化することの問題」『群馬大学留学生センター論集』7:33-50
 https://gair.media.gunma-u.ac.jp/dspace/bitstream/10087/3065/1/GUNRYU03.pdf
・三好茂樹・黒木速人・河野純大・白澤麻弓・石原保志・小林正幸, 2007, 「音声認識技術を利用した字幕作成担当者のための支援技術とそのシステム開発」『筑波技術大学テクノレポート』14, 145-152.
・水島昌英・織田修平・政瀧浩和・古家賢一・片岡章俊, 2007, 「音声認識を用いた会議支援情報保障システムに対する話者の発話行動の分析」『電子情報通信学会技術研究報告 WIT 福祉情報工学』108:21-26
・――――, 2008, 「音声認識による会議情報支援システム使用時の話者及び訂正者の負担度の評価」『電子情報通信学会技術研究報告 WIT 福祉情報工学』60:31-36
・水島昌英・織田修平・政瀧浩和・古家賢一・羽田陽一, 2009, 「音声認識を用いた会議情報保障支援システムにおける話者と訂正者の連携支援機能の評価」『電子情報通信学会技術研究報告 WIT 福祉情報工学』58:17-22
・中野聡子・牧原功・金澤貴之・菊池真理・黒木速人・井野秀一・伊福部達・福島智, 2006, 「音声認識技術を利用した字幕呈示システムの現状と課題――音声言語と文字言語の性質の違いに焦点をあてて」『群馬大学教育実践研究』23, 251-259. ・中野聡子・金澤貴之・牧原功・黒木速人・上田一貴・井野秀一・伊福部達, 2008, 「音声認識技術を利用した字幕提示システムの活用に関する課題――聴覚障害者のニーズに即した提示方法」『メディア教育研究』5(2):63-72
 http://www.nime.ac.jp/journal/journal/vol-10/No.10-08tokusyuu07.pdf
・――――, 2008, 「聴覚障害者向け音声同時字幕システムの読みやすさに関する研究(1)――改行効果に焦点をあてて」『ヒューマンインターフェース学会論文誌』10(4):51-60
・日本聴覚障害学生高等教育支援ネットワーク(PEPNet-Japan)「トピック別聴覚障害学生支援ガイド――PEPNet-Japan TipSheet集」編集グループ, 2008, 『トピック別聴覚障害学生支援ガイド』筑波技術大学障害者高等教育研究支援センター
・織田修平・水島昌英・古家賢一・片岡章俊, 2007, 「音声認識を通した不完全な出力結果に対する聴覚障害者の了解性と満足度の分析」『電子情報通信学会技術研究報告 WIT 福祉情報工学』109:27-32
・――――, 2008, 「音声認識による会議情報保障支援に対する聴覚障害者の心的負担の分析」『電子情報通信学会技術研究報告 WIT 福祉情報工学』108:103-108
・織田修平・水島昌英・古家賢一・政瀧浩和・羽田陽一, 2009, 「音声認識を用いた会議情報保障支援システムの社内会議における検証」『電子情報通信学会技術研究報告 WIT 福祉情報工学』58:11-16
・「音声認識によるリアルタイム字幕作成システム構築マニュアル」編集グループ, 2009, 『音声認識によるリアルタイム字幕作成システム構築マニュアル』筑波技術大学.
・斉藤佐和監修, 2002, 『聴覚障害学生サポートガイドブック――ともに学ぶための講義保障支援の進め方』日本医療企画
・坂本徳仁, 2009, 「音声認識エンジンを用いた聴覚障害者支援の実現可能性について」第6回支援研報告資料
・櫻井悟史・鹿島萌子・池田雅広, 2009, 「音声認識ソフトを用いた学習権保障のための仕組み」第6回障害学会大会. ポスター
・櫻井悟史, 2010, 「音声認識エンジンを用いた字幕化支援の現状と課題」シンポジウム「聴覚障害者の情報保障を考える」研究報告原稿
・吉川あゆみ・広田典子・太田晴康・白沢麻弓, 2001, 『大学ノートテイク入門――聴覚障害学生をサポートする』, 人間社


>TOP

◆参考webページ
日本聴覚障害学生高等教育支援ネットワーク(PEPNet-Japan

*作成:櫻井 悟史
UP:20100319 REV:20100324
異なる身体のもとでの交信  ◇情報・コミュニケーション/と障害者  ◇AmiVoice
TOP HOME (http://www.arsvi.com)