HOME > 全文掲載 >

音声認識ソフトを用いた学習権保障のための仕組み

櫻井 悟史*・鹿島 萌子*・池田 雅広* (*立命館大学大学院先端総合学術研究科) 20090926-27
障害学会第6回大会 於:立命館大学


◆報告要旨
◆報告原稿

■報告要旨

 本報告の目的は、大学や大学院の講義、研究会やシンポジウムの口頭報告における聴覚障害者への情報保障をいかに行なうかについての一つの仕組みを紹介することにある。これまで大学における講義等の情報保障については、手話通訳、ノートテイク、パソコン要約筆記などが用いられてきた。それらが重要であるのは間違いないが、要約筆記者にかかる負担、かかる人手の量の多さといった問題もある。そういった問題を解消する一つの手段として、音声を文字に自動変換するソフト(以下「音声認識ソフト」)を用いる仕組みが考えられる。
 音声認識ソフトを用いた先行研究としては、会議情報保障支援を目的とする、NTTサイバースペース研究所による、NTTが開発した音声認識エンジンであるVoiceRexを用いた一連の優れた研究がある。本報告は、その知見を参照しつつ、アドバンスト・メディア社が開発した音声認識エンジンAmiVoiceを用い、聴覚障害をもつ大学生ならびに大学院生等にたいする学習権保障の可能性を模索するものである。AmiVoiceはVoiceRexと違い、テキストデータを用いてエンジンを自在にカスタマイズできるため、ともすれば専門的な用語が飛び交う講義や研究発表の場にも対応できることが期待される。その効果のほど、あるいは実用に足るかどうかは、第6回障害学会大会において試験的な運用を行なうので、そこで得られた結果から別途報告することとする。本報告では、音声認識エンジンAmiVoiceの紹介、各種ソフトの解説、2009年4月から2009年7月までの三ヶ月間にわたる立命館大学大学院先端総合学術研究科の講義「公共論史」における試験運用で得られた知見等を報告し、そこから浮き彫りとなった課題・論点を示すことで、今後の研究の端緒としたい。

■報告原稿

0. はじめに
 これまで聴覚障害者にたいする、大学における講義等の情報保障については、手話通訳、ノートテイク、パソコン要約筆記などが用いられてきた。このうち手話通訳は少し他とは違っているが、ノートテイクやパソコン要約筆記は文字をなんらかの媒体に書いて情報を伝えるという点で一致している。本研究では、この文字を書いて情報を伝えるという点に着目したいと考える。ノートテイクやパソコン要約筆記が重要であるのは間違いない。しかしながら、要約筆記者にかかる負担、かかる人手の量の多さといった問題も抱えていることが事実としてある。そのような負担を軽減するよりよい方法はないかという問題意識が、本報告の基底にはある。
 そのうえで、本報告の目的は、大学・大学院の講義・各種研究会・シンポジウムの口頭報告における聴覚障害者への情報保障・学習権保障を、音声を文字に自動変換するソフト(以下「音声認識」)によって行なう仕組みを紹介することにある。音声認識には、アドバンスト・メディア社の音声認識エンジンAmiVoiceを用いる。このAmiVoiceは言語モデルをカスタマイズすることで、認識精度を上げることが可能なエンジンである。ただし、現段階では、AmiVoiceをカスタマイズするためのデータ集めが終了したにすぎない。そのため、AmiVoiceを用いた認識結果等については、第6回障害学会大会での実用で得られた知見をふまえ、別途報告することとする。
 本報告は以下のような形で構成されている。(1)ノートテイク・パソコン要約筆記の問題点、(2)音声認識を用いた先行研究、(3)AmiVoiceの概要(予算)、(4)「支援システム」の構造図解、(5)各種ソフトの解説、(6)AmiVoiceをカスタマイズするためのデータ、以上をふまえたうえで(7)今後の課題を示したいと考える。

1. ノートテイク・パソコン要約筆記の問題点
 聴覚障害学生の学習支援の主だったものとして、筆談を中心としたノートテイクとパソコンを用いたパソコン要約筆記とがある。ノートテイクは音声情報である講義内容を即時に紙に書いて障害学生へ伝える方法であり、1組あたり2、3人の支援者が、聞き取った講義内容を要約し、書いて伝える。また、合間の雑談や生徒とのやり取り、学生の反応なども同様の方法で伝える。
 話された内容を支援者が要約して書いていくノートテイクにおいて、伝達可能な情報量は全体の10〜20%程度にとどまる(斉藤監修:37,64)。また、話すスピードと書くスピードのギャップによって、授業への遅れも生じやすく、内容の十分な伝達は困難であるといえる。そのため、限られた情報量の中で、どれぐらい効率よく正確に伝えられるかが問題となってくる。従って、ノートテイクにおいては支援者への技術訓練が必要であるといえ、実際に講座などを開いて練習の場などをあらかじめ設けるなどの取り組みが多くなされている。
 パソコン要約筆記も基本的にノートテイクと同じ方法をとる。パソコン要約筆記専門のパソコンではなく、市販のパソコンを活用するため、支援者のタイピング能力によって全体の伝達可能な情報量に30%から70%程度までの差が生じるが(斉藤監修2002:44)、ノートテイクに比べ、より多くの情報が伝えられるとされている。パソコン要約筆記においても、ノートテイクと同様に内容要約の技術訓練が必要であるが、それに加え、パソコンの扱い、タッチタイピングなどの専門技術が求められる。
 以上から、両者の問題点として次のことが言える。まず、情報の欠落の問題である。限られた情報量での要約では、支援者が情報を聞き落としてしまう可能性がある。また、文字伝達の速度・遅延の問題がある。そして最後に、支援者には事前訓練や習熟した技術が必要であることから、人材育成の問題がある。支援者に関して述べるなら、専門用語が飛び交う講義において、支援者も事前学習等によってある程度の講義に関する知識を有することが必要となってくるといえる。
 これら三つの問題点を全て解消することは難しいが、三つの問題点がはらんでいる負担を少しでも軽減させる方法があると考えられる。それが、音声認識を用いた方法である。

2. 音声認識を用いた先行研究
 音声認識を用いた先行研究としては、NTTサイバースペース研究所(以下、「NTT」)による聴覚障害者への会議情報保障支に関する一連の研究が挙げられる(註1)。
 NTTでは、NTTが独自に開発した音声認識エンジンVoiceRexを用いている。この音声認識エンジンは、約20分程度の音声を用いて、話者適応を行なう必要がある。言語モデルは汎用モデル(登録単語数約63000語)を使用しており、未知の単語は辞書に追加登録することで補っている。NTTの先行研究では、話者が音声認識を意識して話すことで8割程度の認識率が得られることがわかった。しかし、認識結果そのままでは聴覚障害者の了解率は6割程度にしか達しなかった。ただし、認識結果はそのままで、その真下に訂正語句を追記することで、9割程度の了解率が得られることが判明している(水島・織田・政瀧・古家・片岡2007)(織田・水島・古家・片岡2007)。ただ、話者や聴覚障害者にかかる負担も大きかったため、それを軽減させるために訂正語句の表示方式に工夫を施すなどして(織田修平・水島昌英・古家賢一・片岡章俊2008)、改善策を探るなどしている。
 NTTの先行研究の特徴は、音声認識エンジン自体に手を加えずに音声認識率の向上を模索している点、誤字修正をいかに効率よく行なうかを、話者、聴覚障害者、訂正者の三者に注目しつつ模索している点である。
 これに対し、本研究で用いるAmiVoiceは音声認識エンジン(より正確には言語モデル)をカスタマイズすることで音声認識率の向上を図る点、複数の訂正者によって同時に訂正を施すことで訂正者の負担の軽減を図る点などの違いがある。
以下、音声認識エンジンAmiVoiceと、それに連動する各種ソフトの説明を行なう。

3. AmiVoiceとは
 AmiVoiceとは、音声認識エンジンのことである。本研究で用いるのは、AmiVoiceの応用例の一つである「議事録作成支援システム」(以下「支援システム」)である。
「支援システム」は、以下のようなソフトから成り立っている。第一に音声を認識し、それを文字化する「AmiVoice Recorder」(150万円/1ライセンス、以下「レコーダー」)(註2)。第二に音声認識結果を編集するための「AmiVoice Rewriter」(50万円/1ライセンス、以下「リライター」)。第三に認識結果を向上させるための「言語モデルカスタマイズ」(300万円)。複数台のリライターを用いて、リアルタイムで議事録を作成するための「ControlServer」(50万円/1ライセンス。以下、「コントロールサーバー」)。そして、今後商品化されることになるという、認識結果をリアルタイムで表示する「ControlServerViewer」(以下、ビューアー)である。
 以上のソフトに加え、別途用意したものとしては、音声を吹き込むためのタイピンマイクセット二つ(UT16A+MR-SU3、UHFワイヤレス・レシーバーATW-R103/P)、音声を認識する際、そのノイズは可能な限り除去した方がよいので(AmiVoiceには、すでに強力なノイズ排除技術が搭載されているが)、ノイズを除去するための装置であるオーディオ・インターフェイス「EDIROL 24bit96kHz USB Audio Capture UA-25EX」などである。
 このAmiVoiceの特徴は、VoiceRexと違い、話者適応(話者のクセなどを学習させること)の必要が全くないことである。話者適応がないことがどのような利点をもたらすかというと、たとえばVoiceRexで複数人の会話を音声認識しようと思うと、話者が交代するたびに、その話者に合わせて話者適応させた音響モデルに切り替える作業が必要となるが、AmiVoiceの場合その必要は全くなく、そのまま使用することが可能である。
 また、AmiVoiceの「支援システム」とVoiceRexを用いた会議情報保障支援システムとの違いは、言語モデルをカスタマイズ出来る点にある(註3)。すなわち、大学や大学院での講義は数多くの専門用語が用いられる。また、学問分野によって、その専門用語はかなり異なる。たとえば、社会科学系の専門用語と理工学系の専門用語は全く違う。そのような専門用語を、単語だけでなく、その文脈も含めて言語モデルに学習させることで、認識精度を高めることができるのが、AmiVoiceの支援システムである。さらに、複数のカスタマイズしたエンジンを搭載することも可能であるため(ただし、お金はかかる)、その状況に応じたエンジンを選択すれば、大学や大学院での幅広い講義に対応することも、理論上は可能である。このような言語モデルカスタマイズを用いた応用例として挙げられるのは、音声認識による電子カルテなどの医療記録の作成であろう(註4)。
 ただ、一つ断っておかなければならない点は、「支援システム」がそもそも聴覚障害者の情報保障支援のためのツールとして開発されたのではないという点である。それは、あくまで議事録を残すために作成されたシステムであり、本研究ではそれを応用しているにすぎない。よって、たとえば今後、聴覚障害者の情報保障支援の実験結果が芳しくないことがあったとしても、それは議事録作成を目的とした「支援システム」の使用価値、ならびにAmiVoiceの使用価値を下げるものでは決してないことだけ銘記しておく。

4. 「支援システム」を用いた情報保障システムの構造図解
 今回、「支援システム」を用いた聴覚障害者にたいする情報保障システム(以下、「情報システム」)には3台のパソコンを用いる。これら3台のパソコンは、ルーターを介して、無線LANでつながれている。以下、図を参照しながら解説する。(
 パソコン1(CF-Y7AWDAXS)ではレコーダーとリライターを使用する。レコーダーで音声を録音するため、パソコン2にオーディオ・インタフェイスをつなぎ、それをワイヤレス・レシーバーにつなぐ。ワイヤレス・レシーバーは、話者の持つワイヤレス・マイクロフォンから送られてくる電波を受信、オーディオ・インターフェイスによってノイズが除去され、そのノイズが除去された音声をレコーダーで録音し、コントロール・サーバーで認識することで、音声をテキスト化することが可能となる。そのテキストをリライターで編集し、誤認識を修正する。
 パソコン2(VGN-TZ73B)はリライターのみを使用する。1台だけで誤認識を修正することは、かかる時間の観点からも、また修正者にかかる負担の観点からも効率的ではない。そこで、本件急では2台のパソコンを用いて誤字修正を施すことにした。また最低2台のリライターを用いることで、話者の音声を少ないタイムラグでスクリーンに投影することも可能となる。ただし、2台のリライターを用いるので、当然誤字修正者として2名の人間が必要になる。また、話者の発話を別の人間がリスピークする場合(註5)、追加で1名必要となる。コントロール・サーバーとビューアーは、可能であれば見守る人間がいた方がよいが、基本的にソフトを立ち上げたあとは放っておいてもよいので、新たに人員を割く必要はない。
 パソコン3(PC-VJ25AAZ77)はコントロール・サーバーとビューアーを使用するためのパソコンで、同パソコンをプロジェクターにつなぐことで、誤認識修正後の音声認識結果をスクリーンに表示させる。パソコン1が、3台のパソコンの中で最も負荷がかかるパソコンであるので、3台の中では一番スペックの高いパソコンを使用している(Intel Core(TM)2 Duo、2.53GHz、1.96GB RAM)。

5. 各種ソフトの説明
5.1 AmiVoice Recorder5.22
 レコーダーは音声を録音し、認識するソフトである(コントロール・サーバーを使った場合、録音のみの機能となる)。まず、音声デバイスを選択し(本報告ではオーディオ・インターフェイス「EDIROL 24bit96kHz USB Audio Capture UA-25EX」のこと)、次にエンジンモードを選択する(つまり、この段階で、複数のエンジンモードを搭載していれば、状況に応じてエンジンモードを切り変えることが可能である)。以上の操作を終えたならば、あとは、「録音する」、「音声認識を行う」、「チャンネル」のチェックボックスにチェックを入れ、録音ボタンを押すだけ。もしも、複数の話者が存在する場合、話者振り分け機能を使い、話者の識別を行なうことも可能である。また、エンジンモードの下には、どのぐらいの音量かを示すバーがある。このバーを振り切るほど音量がある場合には、バーのすぐ左隣りにある音量調整ボタンで、適正な音量レベルに調整することもできる。
 録音を開始すると、画面下部の音声認識結果表示部に、文字通り認識された結果が表示される。ここで認識結果を修正することなどはできない。認識結果を修正するにはリライターが必要となってくる。

5.2 AmiVoice Rewriter5.2
 リライターは、レコーダーが認識しテキスト変換したものを修正するためのソフトである。編集の作業場である画面に、音声の波形、認識結果編集ウィンドウ、単語候補一覧、発話者、開始・終了時間、認識結果、編集結果が表示される。まず認識候補を選択すると、音声が自動再生される。次に再生された音声から認識結果を修正・確定し、wordなどのテキストデータへ書き起こすのが、リライターの一連の作業である。
 リライターの特徴としては、まず、発話の切れ目ごとに認識結果が区切られているため、該当箇所の文章を繰り返し再生して、認識結果を修正することが可能な点が挙げられる。巻き戻し機能といったものはないが、キーボードのCtrl+スペースキーで指定したカーソル内の音声はすぐに聞き直すこともできる。他には、再生スピードの変更も可能で、認識結果は分割することも、複数を結合することも可能である。また、誤った認識結果箇所には、入力結果の他に認識候補単語が一覧として表示される。そのため、候補の単語を選択することで修正することも可能である。だが、切れ目の位置によっては、発話の語尾などが欠けてしまうことがある。欠けた語尾は次の認識結果に含まれることもあれば、文字化されないこともある。これは、認識範囲を広げれば解消されるが、リアルタイムでは困難だといえる。修正が終わったら、Ctrl+Enterキーを押すことで、編集結果を確定させる。すると、ビューアーにその編集結果が表示される。

5.3 AmiVoice ControlServer5.0+ AmiVoice ControlServer Viewer
 コントロール・サーバーとは、複数台のパソコンで、認識結果を同時にリアルタイムで編集するためのソフトである。コントロール・サーバーを使用する場合、レコーダーは録音した音声をサーバーに送る機能を果たすだけで、音声認識やデータの保存はサーバー側のパソコンで行なわれることになる。つまり、メインのパソコンは、コントロール・サーバーを使用しているパソコンとなり、その他のパソコンはいわば付属のような形になる。そのため、サーバーのパソコンをホストコンピュータともいう。そして、そのホストコンピュータと他のパソコンが、ローカルネットワークを介し、ファイルを共有することで、サーバーに保存されたデータを複数台のパソコンでいじることが可能となる。元になるデータが一つしかないため、複数台のパソコンで同時に編集したとしても、混乱が生じないのである。
 ビューアーについて述べる前に、NTTの先行研究を再び参照したい。先行研究では、認識した音声を表示させる方法として3つのタイプが挙げられている。まず、(a)追記型訂正方式(誤認識された語句のすぐ下に訂正語句を表示する方式)であるが、この方式は研究が進むにつれ、どの誤認識の語句に訂正語句をあてはめて読めばよいか分かりづらい欠点が指摘された。次に、その改善策として、(b)速報型訂正方式(認識した語句をそのまま出力、誤認識箇所を訂正語句で置き換え、置き換えた部分には下線を引く)、(c)確定型訂正方式(認識した語句をそのまま出力せず、訂正した後に表示させる)が考案された。この二つの方式は、どちらも(a)より聴覚障害者の心的負担が小さくなることが実験によって確認されたが、(b)と(c)のどちらがより良い方式であるかについては、どちらにも一長一短があり、評価が分かれることになった。しかし、NTTでは話者および訂正者の心的負担、会議効率の面から(b)の方式の方が良いことを考慮し、その後は(b)の改良が進められている(織田・水島・古家・片岡2008:108)。
 話を戻すと、アドバンスト・メディア社からビューアーについて、以下の三つの方式が提案された。A確定部分の前に未確定箇所がある場合、未確定箇所は空白で出力するか、B確定部分の前に未確定箇所がある場合、未確定箇所は出力せずに詰めるか、C確定部分の前に未確定箇所がある場合、後ろの確定部分はまだ出力しないか。本研究では、NTTの先行研究の知見をふまえたうえで、AとCの二つの方式を選択することにした。そのため、本報告で用いたビューアーには、「連続表示モード」(確定型訂正方式に近いもの)、「認識結果を表示する」モード(速報型訂正方式に近いもの)の二つのモードが搭載されている。前者は、誤字修正が終わったテキストから表示していくモードである。後者は、認識結果が全て薄い灰色の文字で表示され、誤字修正が終わり、それを確定すると、灰色の文字が黒字に変わる仕組みとなっている。この二つのモードは、使用する前の設定で簡単に切り替え可能である。ビューアーにおける文字の表示のされ方は、まっ白な画面に黒い字が現れるといったものである。字のフォント・スタイル・サイズ・使用言語(日本語・欧文・ギリシャ語・トルコ語・バルト言語・中央ヨーロッパ言語・キリル言語)は自由に変えることができる。

6.  AmiVoiceの言語モデルをカスタマイズするためのデータ
 第6回障害学会大会で実験的に「情報システム」を使用するにあたり、言語モデルのカスタマイズを行なった。そのために、これまで集めた音声データとテキストデータは以下の通りである。

[音声データ+テキストデータ=vtext]
・立命館大学大学院先端総合学術研究科 公共論史(担当講師:立岩真也):18時間

[テキストデータ]
・岡原正幸・立岩真也, 1995, 「自立の技法」, 安積純子・尾中文哉・岡原正幸・立岩真也, 『生の技法―─家と施設を出て暮らす障害者の社会学』, 藤原書店, 第6章, pp.147-164
・――――, 1995, 「「出て暮らす」生活」, 安積純子・尾中文哉・岡原正幸・立岩真也, 『生の技法―─家と施設を出て暮らす障害者の社会学』, 藤原書店, 第2章, pp.57-74
・――――, 1995, 「はやく・ゆっくり──自立生活運動の生成と展開」, 安積純子・尾中文哉・岡原正幸・立岩真也, 『生の技法──家と施設を出て暮らす障害者の社会学 増補改訂版』, 藤原書店, 第7章, pp.165-226
・――――, 1995, 「私が決め、社会が支える、のを当事者が支える──介助システム論」, 安積純子・尾中文哉・岡原正幸・立岩真也, 『生の技法──家と施設を出て暮らす障害者の社会学 増補改訂版』, 藤原書店, 第8章, pp.227-265
・――――, 1995, 「自立生活センターの挑戦」, 安積純子・尾中文哉・岡原正幸・立岩真也, 『生の技法──家と施設を出て暮らす障害者の社会学 増補改訂版』, 藤原書店, 第9章, pp.267-321
・立岩真也, 2000, 『弱くある自由へ――自己決定・介護・生死の技術』, 青土社
・立岩真也, 2004, 『ALS――不動の身体と息する機械』, 医学書院
・2008, 「異なる身体のもとでの交信――本当の実用のための仕組と思想」, 科学研究費・新学術領域研究(研究課題提案型)提出書類(一部略)
・2009, 「第6回障害学会大会報告要旨」

 以上のデータをアドバンスト・メディア社に送り、言語モデルをカスタマイズしてもらった。本研究は、立岩真也が代表を務める科学研究費・新学術領域研究(研究課題提案型)「異なる身体のもとでの交信――本当の実用のための仕組と思想」の協力の下で行なわれているので、また、立岩の著作には実験的に試用する第6回障害学会大会報告の内容と親和性があると考えられたため、言語モデルは立岩仕様にすることとした。他に同大会報告に対応するために、報告要旨も学習させた。これによって、報告内に現れる専門的な用語にも対応できることが期待される。

7. 今後の課題
 本報告では、大学・大学院の講義・各種研究会・シンポジウムの口頭報告における聴覚障害者への情報保障・学習権保障を、音声認識によって行なうための仕組みの紹介しかできなかった。現在までの取り組みによって言語モデルのカスタマイズが終了したので、今後は第6回障害学会大会の登壇報告の際に実験的に試用するなど、実践を積み重ねていくことになる。
 この仕組みがうまく回るかどうかについては未知数である。しかし、仮に回ったとしても、かかる予算の問題は残る。現段階では、この仕組みを実用するためのソフト一式をそろえるために軽く数百万円必要であり、また誤字修正者等に支払う人件費も必要になる。さらに、年間保守で年2回言語モデルカスタマイズを行なえるものの、新たな言語モデルを導入しようとすれば、再び数百万単位の金額が必要になってしまう。この仕組みが普及すれば、金額は安くなるだろう。あるいは、レンタル方式にするといったことも将来的には考えられるかもしれない。だが、現段階では、聴覚障害者への情報保障・学習権保障の仕組みとしては高額すぎると言わざるを得ない。
 とはいえ、言語モデルをカスタマイズできるAmiVoiceは、多岐に渡る専門的な用語が飛び交う大学・大学院の授業等の場からすれば、魅力的なこともまた事実である。今後、実践の中でこの仕組みの可能性を追求していきたい。

(参考文献)
・水島昌英・織田修平・政瀧浩和・古家賢一・片岡章俊, 2007, 「音声認識を用いた会議支援情報保障システムに対する話者の発話行動の分析」『電子情報通信学会技術研究報告 WIT 福祉情報工学』108:21-26
・――――, 2008, 「音声認識による会議情報支援システム使用時の話者及び訂正者の負担度の評価」『電子情報通信学会技術研究報告 WIT 福祉情報工学』60:31-36
・水島昌英・織田修平・政瀧浩和・古家賢一・羽田陽一, 2009, 「音声認識を用いた会議情報保障支援システムにおける話者と訂正者の連携支援機能の評価」『電子情報通信学会技術研究報告 WIT 福祉情報工学』58:17-22
・織田修平・水島昌英・古家賢一・片岡章俊, 2007, 「音声認識を通した不完全な出力結果に対する聴覚障害者の了解性と満足度の分析」『電子情報通信学会技術研究報告 WIT 福祉情報工学』109:27-32
・――――, 2008, 「音声認識による会議情報保障支援に対する聴覚障害者の心的負担の分析」『電子情報通信学会技術研究報告 WIT 福祉情報工学』108:103-108
・織田修平・水島昌英・古家賢一・政瀧浩和・羽田陽一, 2009, 「音声認識を用いた会議情報保障支援システムの社内会議における検証」『電子情報通信学会技術研究報告 WIT 福祉情報工学』58:11-16
・斉藤佐和監修, 2002, 『聴覚障害学生サポートガイドブック――ともに学ぶための講義保障支援の進め方』日本医療企画
・吉川あゆみ・広田典子・太田晴康・白沢麻弓, 2001, 『大学ノートテイク入門――聴覚障害学生をサポートする』, 人間社

(註1) 以下を参照。(水島・織田・政瀧・古家・片岡2007、2008)(水島・織田・政瀧・古家・羽田2009)(織田・水島・古家・片岡2007、2008)(織田・水島・古家・政瀧・羽田2009)
(註2) 「<料金プラン>音声認識(アミボイス)を利用したソリューション」(http://www.advanced-media.co.jp/solution/proceeding/file05.html)アクセス日:2009年9月19日。
 以下の料金も同ページに掲載されている料金である。
(註3) レコーダー、リライター、コントロール・サーバーは、年間保守としてそれぞれ1ライセンスごとに30万円、10万円、10万円を支払うこととなるが、この年間保守の中に、2回の言語モデルチューニングとソフトウェアの定期的なバージョンアップが含まれている。
(註4) 「<医療>音声認識AmiVoice(アミボイス)を利用したソリューション」(http://www.advanced-media.co.jp/solution/medical/index.html)アクセス日:2009年9月19日。
(註5) 話者の話を全てテキスト化するのではなく、その話を要約した方がよいことも考えられる。つまり、パソコン要約筆記の筆記がない状態が、リスピーク形式といえる。

UP:20090830 REV:20090921
障害学会第6回大会  ◇Archives
TOP HOME (http://www.arsvi.com)