オンラインコミュニケーションと不十分な情報保障

中井良平（立命館大学大学院先端総合学術研究科公共領域）　2020/09/19
障害学会第17回大会報告　※オンライン開催

last update: 20200918

◆質疑応答（本頁内↓）

■キーワード

■報告レジュメ

はじめに

　新型コロナウイルス感染症流行による政府緊急事態宣言を受け、全国の大学等では、遠隔授業が授業形態として広く採用されている [1] 。本学においては4月7日付で大学キャンパスへの入構禁止措置が行われ、緊急事態宣言解除後も、春学期はオンライン上で講義が行われることとなった。博士論文の公聴会や学内査読論文の執筆に関するガイダンス等も遠隔で行われることとなり [2] 、講義に限らず、広く学生のキャリアに関わる情報がオンライン上で提供／受容されている。
　これまでとは異なる技術・ツールが用いられ、人々は適応を要求されているのだが、障害者／非障害者への要求は当然ながら一様ではなく、今般の状態が従来の格差をどのように変容させたのか、検証が待たれている。
　本報告では　１）ウェブ会議システムを用いたオンラインコミュニケーションの特性を概観し、　２）情報保障の新たな手段として用いられはじめている音声認識システムの利用実態から同システムの課題を明らかにすることにより、オンラインコミュニケーションにおける情報保障について、本学生存学研究所の取り組み [3] を交えながら、考察する。

１.　オンラインコミュニケーションと情報保障

１ー１. 新型コロナウイルス感染症流行下のコミュニケーション

　新型コロナウイルス感染症の流行により、コミュニケーションのあり方が大きく変化したことは、多くの人が実感していることであろうが、日本におけるその変化の、学術的な記述や分析はまだ少ない。一方で、国や報道機関、民間の調査機関等により発表されるアンケートや調査のデータから、変化の実態を窺うことができる。例えばマスクの着用率が世界的に上昇しており、特に日本を含むアジア各国では極めて高い数値となっているようである [4] 。全国の大学及び高等専門学校の多くは、緊急事態宣言解除後も遠隔授業を継続しており、遠隔授業対応を行っていない教育機関は10%台に留まっている [5] 。それらの変化は、「新しい生活様式」として政府が示したような、人との距離を保つ等といった、感染症の拡大を抑え込もうと考案された方針に、人々が従い行動した結果起こったものである。一見してわかるように、それらは人々を近接させないための方法であり、教育機関での入校禁止措置・遠隔授業の実施や、企業でのテレワークの推奨といったように、人々が互いに集まる機会自体をまず減らそうとするものである。止むを得ず人々が近接しなければならない場合は、マスクを着用し、一定の距離を保ち、大きな声で話さないようになど、「濃厚接触」を行わないことが要求される。人々はただ決められた方針を守ろうとするだけでなく、感染者や、自らにとって感染リスクの高いと思われる者を見つけ出し、コミュニティから排除しようとする [6] 。ウイルス感染の責任は感染した者自身にあるとの空気が醸成され、個人及び個人を管理する者の責任が強く問われることになる [7] 。　新型コロナウイルス感染症の流行に伴う変化が、この社会に何をもたらし、何をもたらそうとしているのか、熊谷晋一郎は「総障害者化」というキーワードで、現在を記述しようとする [8]。熊谷は障害の社会モデルを引き合いに出し、あまりにも急激な社会変化と、まだそこに順応せざる全ての人々という文脈で、総障害者化が起きたとする。熊谷の分析の当否はいずれ明らかとなるであろうが、現在の状況が、障害者―非障害者間の従来の格差を変容させたと捉えることは、間違ってはいないだろう。例えば遠隔授業やテレワークが主体となったことにより、これまで非障害者に比し通学・通勤等に多大な労力を割かざるを得なかった障害者が、その苦痛から解放されたという例が想定される。誰もに通学・通勤等の必要がない社会となれば、学校や職場と自宅との距離、通勤手段などの格差が、日々の通学・通勤等という場面においては無効化された、ということになる。他方、ウェブ会議システムを用いたコミュニケーションの特徴である、カメラとマイクに向かい自身の顔と声を配信するという行為を、コロナ流行以前に日常的に行っていた人はむしろ少数派と考えられ、そのような行為を強いられるという状況に順応できない自身を発見した、という人も少なくないだろう。あるいは、これまでは情報機器の操作が出来ずともさしたる不都合なく生きてきた人が、情報機器を操作出来ないことによる不利益を被ることとなった、という場合があるだろう [9] 。急激な環境の変化によるストレスが、人々に深刻なダメージを与え、それが障害として現れる／残ってしまう、という事態が起こっていることもまた、想像に難くない。
　多くの人が否応なく巻き込まれることになったこの急激な変化によって、生存の可否を含め、それぞれに異なる我々一人一人のできること／できないことを取り巻く環境がどのように変容したのかを見定めることは、多岐にわたる作業を要する、困難を伴う仕事である。本報告ではそれが非常に限定された範囲の作業になると理解しつつ、オンラインコミュニケーションとそこでの情報保障に着目し、考察を行う。障害学に関連のある研究者や研究機関が、障害者が利用することを想定されている技術やシステムについて、その課題を指摘し、考察を行うことは、工学分野を専門としない者の当該技術に関する知識の限界という問題を考慮に入れた上であっても、理にかなった行いであると考え、本報告は書かれる [10] 。

１－２．デジタル情報による情報保障

　人々の近接を避けるために、遠方にいる人同士がコミュニケーションを取るために開発された技術を用いることは、理にかなっている。そこでは送信可能な情報の全てがデジタル信号に変換され、大きな遅延なく相手に届けられる。いうまでもなく、オンライン上のコミュニケーションの特徴とは、そこで取り交わされる情報全般のデジタル化である。ウェブ会議システム上でのコミュニケーションの場とは、参加者それぞれが発信する個別のデジタル情報が、アプリケーション上の一か所に集められたものである。
　個別にデジタル化された情報は、利用形態の自由度を増す。例えば、当初映像の中に埋め込まれていたテレビ字幕（Open caption）は、映像と字幕を分離させ配信／再生を可能とする技術の開発により、映像上での表示／非表示が選択できるようになった（Closed caption）[11] 。映像の中に字幕が埋め込まれている場合、テレビ画面上から字幕を消そうとするならば、映像そのものを消してしまうしかなかった。また、テレビでは音声を消して映像を流すことはできても、映像を消して音声だけを流すことは一般的にはできないが、これは音声と映像が同一の信号で送られているためではなく、再生機器としてのテレビの問題である。つまり、個別のデジタル情報を、送信／受信できることに加え、情報を個別に再生する機能が、再生機器に備わっているかどうかも問題となる。
　オンライン上の会議場面では、映像をオフにし音声を配信することもできるし、映像と音声をオフにし、チャット機能でテキスト情報を送ることもできる。一人の人が退出したからと言って、会議自体が終了してしまうことはない。ウェブ会議システム内において、それらの情報は、個別にオン／オフの切り替えができるかたちで配信されている。ウェブ会議システムはまた、ファイル共有機能を備えていることが一般的であり、テキストファイルや画像ファイルのやり取りができるようになっている。他方、システム内の画面共有機能により、WordファイルやPDFファイルを共有したとしても、それらは映像（画像）としての情報に変換されており、そこに電子テキスト情報は含まれていない。つまり視覚障害者は、一見するとテキスト情報に見えるその映像（画像）へアクセスできない。

１－３．電子テキスト情報の重要性

　着目すべきは、情報保障における、電子テキスト情報の重要性である。私たちの目にはテキスト情報のように見える、かつてのテレビ字幕（Open caption）や、ウェブ会議システム上で画面共有された文書は、コンピューター内においてはテキスト情報としては扱われず、そこからコンピューターが電子テキスト情報を得ようとすれば、画像からテキスト情報を抽出する技術（OCR技術）が必要になる。画像化されたテキスト情報とは、口述されたテキスト情報のようなものであり、音声認識技術が音声情報を100％解析できないように、OCRで画像からテキストを抽出しようとしても、精度には限界がある。つまり、電子テキスト情報をもとにして作成された情報は、完全な電子テキスト情報が同時に保存されていない限り、それ以上の加工の困難な、劣化した情報となっていると言える。他方、完全な電子テキスト情報は、合成音声、画像、点字、外国語など、変換精度の問題があるものもあるが、様々な機械的変換が可能であり、これは他の形式の情報と明確に異なる点である。つまりコンピューター上における、（音声や画像に変換された形態を含む）言語による情報保障において重要なのは、　１）必要な情報をいかに正確な電子テキスト情報としてコンピューターに取り込むか、　２）電子テキスト情報を別の形態に変換した場合も、完全な電子テキスト情報に再変換可能となるよう情報を保持させておくこと、であると言える。
　次章では、音声認識システムが、音声情報からどの程度テキスト情報を抽出できるのか、システムの実際の利用事例から検証する。

２．音声認識システムの利用実態

２－１．各国テレビ局の利用事例

２－１－１．日本国内の利用事例（ＮＨＫ）

　音声認識技術による情報保障が独自に研究され実用化されている場面として、テレビ放送における字幕付与場面があげられる。佐藤[2018] [12] によれば、テレビ放送NHK総合における2016年度の字幕放送の割合は、97.4％となっており、以下の五つの字幕付与方法が採用されている。　１）通常のキーボードと複数の入力者によって行われる「リレー方式」、　２）特殊なキーボードを用い、入力者と校正者がペアで行う「高速キーボード方式」、　３）訓練された話者が番組音声を復唱し、誤認識をオペレーターが修正する「リスピーク方式」、　４）アナウンサーなどによる発話は直接音声認識、それ以外は復唱方式を用い、オペレーターが修正する、「ハイブリッド方式」、　５）音声認識結果と、事前に用意された原稿が自動的に比較され、原稿の当該部分が字幕として送出される「原稿推定方式」、である。生放送番組に対し、これらの方法が用いられ、字幕が生成される。その内訳は、　１）,２）が全体のおよそ半分、　３）が４割、　４）が１割程度とのことである。　５）は地方局のみで行われている。事前収録番組の字幕に関しては、人手により付与されているとのことである。
　それぞれの特徴やコストであるが、　１）,２）については、「番組の話題や発話スタイル，背景雑音の有無による制約を受けることがなく，オペレーターが柔軟に文字を入力することができる」（佐藤[2018:164]）ものの、多くの熟練した人員が必要とされる。　３）については「高速キーボード方式に次いで適用可能番組が広いリスピーク方式であるが，字幕制作者の事前準備やスキルのある字幕キャスタの確保が課題となり，コストをかけられる番組だけで利用されている」（佐藤[2018:165]）とのことである。　４）のハイブリッド方式においては、独自の技術開発により直接音声認識を可能とすることにより、復唱が必要な部分を減らし、コストの削減を達成している。　５）の「原稿推定方式」もNHK独自の技術であり、音声認識システムによる部分的な誤認識があったとしても、認識結果から登録された原稿の該当部分を自動で推定し送出することが可能となっている。同技術により「認識誤りを発見してそれを即座に修正する技能を有するオペレータ」（佐藤[2018:166]）を確保する負担が軽減された。該当する原稿がない場合、字幕は生成されない。
　以上のうち、音声認識技術による自動字幕生成と呼べるものは　４）の「ハイブリッド方式」中の直接音声認識による部分であるが、それを可能としているのは、最新記事のデータベースとの連携による固有名詞や人名の自動学習であり [13] 、独自の技術開発を行ったNHKならではのシステムと言えるだろう。

２－１－２．米国における字幕制作業者の字幕付与方法

　井部[2019] [14] によると、米国でも日本と同様、事前収録番組と生放送番組で、字幕付与の方法が異なるとのことである。字幕制作業者は、事前収録番組においては人の手により字幕を生成し、生放送番組においては、ステノタイプ（Stenotype）と呼ばれる高速入力キーボード及び音声認識システムを用いていると報告されている。

２－１－３．チェコにおける公共放送での字幕付与

　海外におけるテレビ放送の情報保障について、詳細を知ることのできる機会は多くないが、チェコ公共放送において音声認識システムによる字幕付与が行われるようになった経緯と、その様子が記された論文としてAleš Pražákら[2020] [15] がある。いわく、主要な言語に限って開発されている高速入力キーボード（Stenotype, Velotipe）はチェコ語の速記には利用できず、音声認識システムがリアルタイム字幕生成における唯一の手段だった。チェコには、同様の状況に置かれた他国と異なり、音声認識技術の研究を行ってきた複数の大学があったため、同技術をリアルタイム字幕生成に用いる事が可能となった、とのことである。報告によれば、リアルタイム字幕生成は、複雑な訓練を受けた復唱者によって行われる。復唱者を置かず、直接入力で字幕が生成されるのは、チェコ共和国議会のミーティング放送のみで、議会用に特別に調整され続けているそのシステムの認識誤り率は6％未満ということである。

２－２．本学でのシステムの導入事例

　本学生存学研究所では、オンライン会議システムを用いた、本年5月及び7月の計三つのセミナー [16] で音声認識システムの利用が検討されたが、実現には至らなかった。その主な理由として、事前テスト及び本番当日の作業に携わる人員を確保できなかったことがあげられるのだが、そこには、参照できる情報の少なさという問題、不確定要素という問題、コストの問題などが関係している。
　まず、参照できる情報の少なさについて。音声認識システムの開発メーカーや、システムを備えたアプリケーションの提供元は、詳細な音声認識率のデータを公表していない [17] 。新規利用を検討しているユーザーが得られる情報は、雑音の少ない環境で、マイクと適正な距離を保ち、きちんと発声すれば、ある程度の高精度で音声をテキスト化できる、といった程度にとどまる。それに加えてメーカーは、認識精度を高めるために、“アナウンサーのような明瞭な喋り方”が必要であると述べており [18] 、そのことが不確定要素として、利用検討ユーザーにのし掛かることになる。学会報告等では、訓練を行った特定のアナウンサーが原稿を読む場合などと違い、視聴者・観客を含む不特定多数の未訓練の話者が発話することが想定され、主要話者を事前に集め、テストを行うということは現実的ではない。そして、そのような場で求められているのは、とりあえずの情報保障ではなく、専門用語を含む複雑な会話を、可能な限り発話内容に近い形で文字情報へと変換することである。音声認識システムを用い、必要とするクオリティの情報保障を行うには、どの程度の人手やコストがかかるのかを知り、既存の情報保障上の手法との比較を行う必要があるのだが、この新しい技術に関してはそのような情報が十分に提供されているとは言い難い。
　コストや人手の軽減が得られるという確証を得ることができず、生存学研究所で行われた直近のセミナーでは、音声認識システムを情報保障の手段の一部として導入することが見送られる結果となった。既に行われたセミナーでは、情報の質が重視され、専門家複数人による手動タイプ入力という従来同様の方法がとられた。文字通訳に用いられたアプリケーション「captiOnline」は、視聴人数が多くなるとともに動作が重くなることが懸念されたが、セミナーは視聴者数の限られた事前登録制であり、結果的に文字通訳を必要とする人の数もそれほど多くなく、提供できる情報量の上限についての議論は行われなかった。また、当初から従来の方法での情報保障のための予算が計上されており、情報保障を行うに際し重要な要素となるコストについても問題とされなかった。
　本項で見た音声認識率を高めるために必須の三つの要件を改めて整理すると、以下のようになる。　a）雑音のない環境であること、　b）話者とマイクが適正な距離にあること、　c）話者がアナウンサーのように明瞭に話すこと。音声入力の際のこの三つの要件に加え、システムを利用する場面でよく用いられる固有名詞や人名、専門用語などを前もってシステムと連携する辞書機能に登録しておくことが、認識率を高める結果につながると、システムの開発メーカー等はアナウンスしている。

２－３．各利用事例と本学での導入検討から見えてきたこと

　以上までで見た、各利用事例と、本学での利用検討から明らかになったことは、　１）複雑な会話を正確に字幕に落とし込む必要がある場合など、情報保障の正確性が重視される場面においては、人手による入力が最善手とされていること、　２）遅延にシビアなリアルタイム字幕生成の場面や、コストを抑える必要がある場面、技術的に人による入力が行えない際、音声認識システムが用いられる場合があること。ただしそれらの場面でシステムが利用される際は、利用目的に沿った独自の技術開発が前提となっていること、　３）タイプ入力、音声認識システムによる入力のいずれも、入力技術を有した入力者の確保には大きなコストを要すること、　４）高速タイプ入力、音声認識システムによる入力のいずれも、言語や利用目的ごとに独自に開発された高度な技術が用いられており、技術を利用できないケースが存在すること、などである。
　前段で示した認識率を左右する三要件の問題もあり、一般の発話環境で、市場で提供されている技術水準の音声認識システムを用い、正確な情報保障を行おうとする際には、人による校正／編集作業が必須となると考えられる。

２－４．音声認識システムが効率的な情報保障の手段となり得る条件

　人による編集／校正作業を全く必要としない変換精度を持つ音声認識システムは、現在までのところ市場では提供されていない。つまり、同システムを情報保障の手段として用いようとする場合は、システムによる文字生成と人による修正作業が、人の手のみによる従来の方法と比べどの程度効率的であるのか、また効率性が得られる場合のコストがどのようなものであるのかが考慮され検討されることとなる。
　河原・秋田[2018] [19] の検証によれば、音声認識率が87％以上の場合には、人のみの作業に比べ、作業時間短縮効果が得られ、93％以上の場合、全体の三分の一の時間短縮効果が得られるとのことである。この条件は、作業にあたる者の技術レベルや、作業制限時間によって異なってくると考えられるが、本報告では河原に倣い、認識精度87％を字幕生成作業効率化の境界ラインとする。
　　河原は放送大学で行われた三つの連続ラジオ講義に対し、音声認識システムと人による作業を組み合わせた形でのテキスト作成実験を行った [20] 。その認識率（連続講義ごとの平均）は、認識率の高かった連続講義から順に、94.4％、90.8％、88.5％であった。講義には台本がある場合とない場合があり、最も認識精度の高かった連続講義には全ての回で台本があった、とのことである。
　前述したように、音声認識システムの認識精度に大きく影響を与える要因として、周囲の雑音、マイクの適切な使用、話者の発話技術の三要件があげられるのだが、上記講義は、音響条件の良い収録スタジオにおいて、「一般の講演や講義に比べると，はるかに発声は明瞭」に行われたとのことであり [21] 、それらの要件をよく満たしていたと考えられる。にもかかわらず、認識率の低い講義では88％台であり、スタジオや機材を用いない環境での、録音に不慣れな話者による一般の会話状況では、87％以上の認識精度を得ることが困難であろうことを示唆する結果となっている。実験が行われた後のこの4年の間の技術進展が認識精度をいくらか向上させているものと考えられるが、一方で前述の三要件が認識率を左右するという技術的課題は依然そのままであり、特に三要件が配慮されない環境としてのオンライン会議システム上のミーティング場面で、87％以上の認識率が得られるとは考えにくい。つまり、人による従来の情報保障を効率化させる技術として音声認識システムを用いることのできる場面は、現在のところかなり限定されていると考えて良いだろう。マイクとの適切な距離は比較的容易に対応可能であろうが、話者の発話技術は容易には変更不可能である。となると、雑音のない環境であることが音声認識システム使用上の前提条件としてまずあり、同条件が確保されている場合、マイクの位置などを整えたのち、話者の発話の認識精度を確認する、という手順になるだろう。事前に話者による発話の認識精度を確認できないケース――話者が複数いる場合など――では音声認識システムの利用が検討される機会はより限られるであろう。
　また、Aleš Pražákが報告したチェコ公共放送における音声認識技術開発の経緯は、言語情報に関する技術開発の限界についての重要な示唆となっているだろう。すなわち技術に言語を対応させるのではなく、言語情報に技術を対応させる必要がある場合、他国で広く用いられている方法が、特定の言語では用いることができない、という事態が起こる、ということである。チェコ語においては対応した高速入力キーボードが存在しなかったわけだが、音声認識技術による日本語の情報保障が、今後他言語に比べ大きな遅れを取っていくという場合もあり得るだろう。技術革新に頼ることなく、その時点で利用可能な技術を柔軟に用いて情報格差を埋めていくという視点が肝要であることは言うまでもない。

２－５．ある程度の質で量を増やすという方向性

　音声認識システムによるリアルタイム字幕生成は、NHKやチェコ公共放送の例で見たように、既に実用レベルに達している、と見ることも可能である。ただしそれらは、費用と人員を投じ、自らの利用目的に沿ったシステムを独自開発したケースであり、一般の環境で情報保障を行おうとする場合に当てはめることはできない。
　現在市場で提供されている音声認識システムの技術水準は、入念に準備が行われた上であっても、人のみによる情報保障作業を効率化させる程度のものであることがわかった。同システムを情報保障に用いた場合、誤りを修正していくという作業が必ず伴うのだが、その作業にはまた、誤りの修正漏れが伴うであろう。災害情報や緊急情報など、誤りが許されないケースでは、入力段階から誤りなく情報が生成されるべきであり、同技術は用いられるべきではないと言えるだろう。また、学会等専門用語が用いられる場面など、一語の違いで文意が大きく変わってしまうような場面では、利用は慎重に検討されるべきであろう。以上は、認識精度という情報の質の観点から見た場合である。
　他方、情報があることにより、ない場合よりも便利となるというケースが存在する。例えば電話による通話は日常的に存在するコミュニケーション場面であり、電話リレーサービス [22] など、人の手による通訳サービスが存在するものの、通訳が必要な全ての通話をカバーすることは不可能である。そのような場面では、大まかな認識精度であっても使えるシステムがないよりはあった方が良いと言えるだろう [23] 。その際重要な点は、大まかに使える技術が普及することにより、重要な情報へのアクセスが情報保障を必要とするユーザー自身に委ねられてしまい、情報提供者による対策が後手に回るようなことがあってはならない、ということだ。長年、聴覚障害者の電話利用、とりわけどのように緊急通報を行うかが課題となってきたのだが、本年の国会でようやく、公的電話リレーサービス制度化法案が可決された [24] 。G７参加国では最後、世界27か国目 [25] の制度化であり、制度化までの間に聴覚障害者が、人命に関わる場面での不利益を被り続けてきたことに対する大きな責任が国にある、という批判は免れ得ないであろう。これまで聴覚障害者は、FAXやメールといった、技術それ自体は便利ではあるものの一方通行的な代替の手段での緊急通報を余儀なくされてきたが、通信環境と機材を必要とするものの、リレーサービスでは手話通訳者を通しての双方向の通話が可能となると期待されている。
　なお、現在の音声認識システムの技術水準では、メールやFAXと違い、単独では緊急通報時の手段とはなり得ないだろう。今後仮に、音声認識システムが通話場面に網羅的に用いられることになっていくとして、それは情報の質に関する問題は未解決のまま、アクセスのできる場面（＝量）を増やそうとする試みとなるだろう。他方緊急通報を巡る制度のあり方は、生存に欠かせない場へアクセスする権利に関わるものである。
　現在までのところ、音声認識システムは情報の量の増加に寄与することはあっても、質を伴った情報を生成できる機会は限られていると考えられ、重要な情報や場へのアクセスが求められる場面での利用は慎重に制限されるべきだろう。

３．従来の情報保障からの変容の可能性とその課題

３－１．長年研究の続けられる音声認識技術

　以上までに見たように、音声認識技術は、音声情報をテキスト情報に変換するという目的をまだ十分には達成できていない不完全な技術であり、その技術により生成される情報もまた、不完全なものとならざるを得ない。　しかしながら、本報告で見たように、言語情報保障において、電子テキスト情報という形式の持つ汎用性は他から際立っており、音声情報をテキスト情報に変換しようという試みは、今後も重要なものであり続けるだろう [26][27] 。研究に費やされた／費やされている費用や時間、人的資源が果たして妥当なものであるのかという問題は別として、今後も研究が続けられ、技術が市場に提供され続けることが予想されるならば、技術への冷静かつ批判的な眼差しは保持しながらも、技術を自ら活用していくこととそのための知恵が必要とされるだろう。新たな技術を切実に待ち望む人は、その技術から直接的な利益を受ける人であろうし、その中には病や障害を抱えた人が少なからずいるだろう。音声認識技術については、そのような人たちからの期待が大きい技術と言えよう。そのことはつまり、技術が期待通りに使えなかった場合のその人たちの失望もまた、大きいということである。技術についての適正な評価を行うために、特に技術の営利提供者から、技術についての詳細なデータが提供されることを願う。
　以上のような問題意識は前提とした上で、本章では、生存学研究所での今後の取り組みに触れながら、音声認識システムを活用した情報保障がオンラインコミュニケーションにどの様に取り入れられるのかを含め、今後の情報保障について考察する。

３－２．不完全な技術であっても

　第２章で見たように、コロナウイルス感染症流行後、オンラインで行われることとなった本学生存学研究所主催のセミナーにおいて、音声認識システムを用いた情報保障は検討されたのち、採用されなかった。そこでは、専門家への依頼が行われ、セミナー参加者への手話通訳・文字通訳の提供が、二団体の協力によって行われた [28] 。実際の手順は以下の通りであった。

　文字通訳：遠隔地に待機した文字通訳者が交代で、タイピングにより音声情報をリアルタイムでテキスト情報に変換していった。文字通訳アプリケーション「captiOnline」を用いてテキストを送出していき、情報保障を必要とする人は、ブラウザで閲覧ページにアクセスし、ウェブ会議システムの画面と、文字通訳画面を並べる形でテキストを閲覧した。

　手話通訳：遠隔地に待機した手話通訳者が交代で、音声情報をリアルタイムで手話通訳していった。映像はウェブ会議システム上で配信され、情報保障を必要とする人は、手話通訳画面を表示させることで手話を閲覧した。

　以上のように、オンライン会議システム上のコミュニケーションにおいては、遠隔地からの情報保障が可能となっており、閲覧の際も、例えば会場における話者／スピーカーやスクリーンとの距離といった、物理的制約を受けずに情報保障を受けることができる [29] 既に述べたようにそれはオンラインコミュニケーションの特徴である、デジタル化された情報のやりとり、並びに、PC等情報機器の機能拡張可能性という特徴 [30] により、可能となっている。
　しかしながら、そのように情報保障を行おうとするには、専門技術を持つ通訳者に依頼を行う必要があり、当然ながらそのためには、情報保障を行おうとする者が、ある程度の経済基盤を有する団体である必要がある。また、そのような団体であっても、主催する催しのうちの一部に対し情報保障を行えるに過ぎない、といった現実がある。生存学研究所主催で9月19日に開催の予定されている「障害学会第17回大会・2020」においても、メインのシンポジウムでは、手話／文字通訳が行えることとなったが、40を超える個別報告については情報保障の目処が立たず、当初予定されていたウェブ会議システムを用いての講演は取りやめとなり、ウェブサイトに報告の全文を一定期間掲載した上、質疑応答をメールで行うという方法が取られることとなった。そのように、情報保障を行おうとする者が、音声認識技術による「機械的情報保障」に期待を抱いてしまうのも無理からぬ現実が存在する。現時点では、多くの場面で情報保障は全く不十分であり、現在の社会構造上、その実行には多額の費用を要する、ということとなっている。
　筆者は、支援され提供されることにより、非障害者のアクセス機会に障害者のアクセス機会を近づけるのだという、現在の情報保障の概念が深化し、より総合的な情報受容の平等性が広く論じられるべきだと考えるが、そのことについては情報保障を主題とした本報告とは別に論ずる。
　ともかく、まだ不完全な技術であっても、他の方法との組み合わせにより少しでも役に立てることはできないかと考えた場合、いくらかを思いつくことはできる。というよりも、提供できる情報量の絶対的な不足という事態にあっては、そのように考えざるを得ない場面が多くある、と言える。

３－３．オンライン上のコミュニケーションであることを活かすには

　オンライン上でのコミュニケーションの最大の特徴が、情報のデジタル化であることは既に述べた。デジタル化された情報は、保存、複製、加工等が容易に行えるため、情報保障を行おうとする際にも、その利点は多くある。リアルタイムで音声をテキスト化するなど、即時の情報保障には大きな課題があることをこれまでに見たが、即時であるという条件を緩める、あるいは外せば、デジタル情報の利点を活かした別様の情報保障も考えられる。
　ひとつには、前段で示した「障害学会第17回大会・2020」の個別報告のように、前もって内容を掲示しておく、という方法である。今回は人によるオンライン上での報告を取りやめたが、前もって掲示しておいた原稿に沿って報告を行い、その際進行に合わせて原稿を字幕の形で流せば、報告内容についての最低限の情報保障は行えたと言えるだろう。今回の学会大会では、掲載された報告内容についての質疑応答を、メールでのやり取りで行うこととした。それは、費用を掛けずに可能な限り、異なった情報の受け取り方をする人たちが、等しく情報にアクセスできるように、という観点から考えられた苦肉の策ではあるものの、実際にリアルタイムで人による報告と質疑応答が行われる場合と比べて、何か明らかな問題点がある／劣っている方法ということにはならないと考える。確かに慣れの問題から来る違和感はあるかもしれないが、慣れてさえしまえばそれはそれで合理的な方法であるとは言えないだろうか。音声からテキストへの変換は困難を伴い、テキストを音声として再生するには変換の必要がないという特性から、電子テキスト情報が存在しない部分については話さないようにする、という方向性の解決策が検討された、ということである。そのような方向性でどういったコミュニケーションがあり得るのか、より検討されて然るべきだろう。例えば、シンポジウムの報告部分については事前に提示された原稿から逸脱しないように話し、質疑応答等の部分については、話者が自身で発話内容についてのタイピングを行ってから（行いながら）話す、という方法も考えられる [31] 。話者自身が字幕を作成する、というこの方法は、当然ながら各人のタイピング速度に影響を受けるため、場合によっては発話が非常に緩慢になる場合もあるだろうが、テキスト情報での情報提示も行われているため、そのことは理解の妨げとはならないだろう。この方法を用いる場合は、読み上げ機能等を使う人に字幕が利用できるよう工夫がなされなければならない。
　上記は前もって（同時に）情報を伝えるようにするという観点からの案であったが、原稿などがなくリアルタイムでは間に合わなかった情報保障を後から行う、という苦肉の策も考えられる。例えば、ウェブ会議システム上で行われている講演等を映像として録画しておき、音声を字幕化したものを後から作成すれば、文字情報による情報保障が行われた講演動画が出来上がることになる [32] 。従来の対面型の講演等で同様の作業を行おうとすれば、録画と録音に注意を払いながらの撮影が必要となり、その分人手とコストがかかることになるが、ウェブ会議システム上では、録画設定を行えば、リアルタイムで行われ視聴された映像と同一の動画／音声が保存されることになる。録画を行う際、各話者が音声認識システムに音声を認識させておき、認識データを記録しておくのが良いだろう。作業全体を通しての効率化は不可能だとしても、認識データが部分的には字幕付与作業を効率化させる可能性も否定できないからである。動画中に圧縮され統合されてしまった各話者の音声データを音声認識システムに通した場合、肉声を認識させる場合に比べ認識精度が落ちるため、音声認識システムを利用するならば、録画と同時に行うべきである。あるいは、講演時には音声認識は行わず、録画された映像を見ながら字幕作成者が復唱で文字入力を行い、字幕を作成していく、という選択もあり得るだろう。リアルタイムで音声情報をテキストに変換しようとする際、最も重要となるのは、時間内にどれだけ正確なテキストを生成できるかという意味での効率性だった。しかし、時間をかけ、即時の場合よりも正確な情報保障を行おうとする時、作業効率についての考え方は変わりうる。というのも、タイピングにより長時間にわたり大量の文字を打ち込んでいくというのは、相当な重労働であり、単純に短期間に文字数を生成できるからそれが最善の方法である、とは言えない場合があると考えられるからである。つまり、タイピングによる入力よりは、音声入力の方が、同じ作業を行う際負荷が少ない、と言える場合があるだろう、ということである。その負荷の異なりが、長時間にわたる作業の効率をいくらか良くするか、作業者の疲労度を軽減する可能性があるかもしれない。ここで想定されている作業を行うのは、技術を備え、情報保障を専門の仕事としている者ではなく、その人たちにお金を払い技術の提供を受けられない場合における、情報提供者自身である。字幕生成という作業は、音声反訳／テープ起こしと非常に近いものであり、そのような長時間にわたるタイピング及び、テキストの生成という作業はそれ自体、相当程度の技術を要するものであると言える。それは例えば論文を書くといった、自身の思考を待ち、休み休み手を動かせば良い、という作業とは全く異なるものである。上記の作業効率や疲労度についての考察は、タイピング入力・音声入力ともに、一般的な作業技術を有している人を想定してのものであるが、タイピングが不得手であり音声入力が得意であるという人の場合は、後者を積極的に利用した方が良い場面が多いかもしれず、その逆も同様である。上肢に障害がある・識字障害がある、などでタイピングを行えない人が、音声入力により字幕作成作業に参加できるといった可能性もあるだろう。無論、それは字幕作成の場面に限った話ではない。
　以上までで見たように、情報保障のかなりの部分は専門家の手を借りる必要があり、催しの主催者などが工夫して部分的な情報保障を行うにしても、人手を要するものになる。情報保障を現状よりも手厚いものとしたい場合、おそらく最も実効性のある方法は、情報作成者自身が今以上に、情報保障の実現に向けて責任を持ち、行動していくことであろう。例えば、読み上げソフト等での可読性に問題がある場合の多いPDFファイルは、必要最低限な場面でしか使わない、PDFと合わせテキストデータもウェブ上に掲示するなどといった、それほどの労力を伴わない対応が、日本では殆ど行われていない。山田・遊間 [2015] [33] では東京23区の防災情報のうち、防災マップ等の地図の大半がPDFとしての提供となっており、視覚を用いなければ利用できないことが指摘され、自治体による防災情報ですら障害者に必要な対応を行っていなかったことが明らかにされている [34] 。上記対応が徹底されるだけで、ウェブ上にある情報のアクセシビリティは大幅に改善されるはずである。他にも、人手や予算が足りず、音声認識システムを効率的に使わなければ情報保障が行えないという状態がこの先も変化しそうにないと認識されている現場では、システムの運用を検討し、システムに認識されやすい発話の訓練を試みてみる、という取り組みがあって良いだろう。
　もし、情報保障を必要としている媒体が一般に公開できる動画等である場合は、クラウドワーキングのような形で遠隔での情報保障ボランティアを募り、それぞれが作業を補完しあえば、量をこなしていくことも可能となるかもしれない。認識精度によるが、その際の最初の字幕を音声認識システムを用いて作成することができれば、情報発信者側・ボランティア側双方の負担軽減につながるだろう。その試みでは、ボランティア作業に対するインセンティブをどのように設定するかが成功の鍵となってくるだろう。ボランティア作業者と情報発信者の相互に利益のある字幕制作システムを構築できれば、オンラインであるという利点を大きく活かした情報保障が行われることになるはずである。

おわりに

　本報告では、オンラインコミュニケーションの特性を見ながら、音声認識技術を用いた情報保障の実例を検証することにより、同技術を用いた情報保障の限界及び、その課題と対応策のいくらかを提示することができたと考えている。９月に行われる障害学会大会を含め、本学においても今後も開催されていくであろう、オンライン会議システムを用いた講演等であるが、その場における情報保障は言うまでもなく重要な課題である。情報保障を必要とする／されている多くの人々が、この新たなコミュニケーションに際した情報保障について考え、取り組みをはじめているだろう。その人たちと協力を行いながら、対応策を発展させていきたい。
　本報告執筆中に念頭に置かれていた情報保障は、手話／文字通訳・電子テキスト情報などであり、主には聞こえない人、見えない人を対象としたものであった。その人たちにとっては、情報のデジタル化は良い面があるのではないか、という観点から本報告は書かれたのだが、例えばデジタル機器を使うことができない、電磁波過敏症等の人からすれば、当然ながら様相は全く異なってくるだろう。様々に異なる身体を持ち、必要を異にする私たちが、可能な限り情報を平等に受容するためには何が必要であり、この社会において何が障壁となっているのか、今後も考察を深めていきたい。

注及び参考文献

[1]　文部科学省 2020 「新型コロナウイルス感染症の状況を踏まえた大学等の授業の実施状況（令和2年7月1日時点）」.

[2]　立命館大学大学院先端総合学術研究科 2020 「学位審査公聴会」
　 URL：https://www.r-gscefs.jp/?p=86.（最終閲覧日：2020/09/08）

[3]　生存学研究所では5月に「新型コロナウイルス感染症と生存学」7月に「土曜講座代替企画ウィズコロナ／アフターコロナのアクセシビリティ」及び「障害学国際セミナー 2020東アジアにおける新型コロナウイルス感染症と障害者」がウェブ会議システムを用いて開催され、いずれも、手話／文字通訳による情報保障が行われた。また、9月19日には、「障害学会第17回大会 2020」が、同じくオンラインで行われる予定である。

[4]　日本リサーチセンター「新型コロナウイルス自主調査　第6回調査結果　～世界26か国別・感染予防行動の実施状況～」
　 URL：https://www.nrc.co.jp/nryg/200428.html（最終閲覧日：2020/09/08）

[5]　文部科学省[2020:1]（前掲1）

[6]　毎日新聞 2020/08/11 「東京から青森に帰省したら中傷ビラ「こんなものが来るとは」」
　 URL：https://mainichi.jp/articles/20200811/k00/00m/040/148000c（最終閲覧日：2020/09/08）

[7]　読売新聞 2020/08/23 「「日本から出て行け」「学校つぶせ」…部活クラスターで中傷電話、生徒の写真も拡散」
　 URL：https://www.yomiuri.co.jp/national/20200823-OYT1T50091/（最終閲覧日：2020/09/08）

[8]　NHK 2020/06/05 「コロナの向こう側で（１）　“全員が障害者”で見えたもの熊谷晋一郎さん」, NHKハートネット福祉情報総合サイト
　 URL：https://www.nhk.or.jp/heart-net/article/364/（最終閲覧日：2020/09/08）

[9]　特に高齢者は、情報機器の利用率が低く、コロナウイルス感染後の死亡／重症化リスクが高い。

[10]　本学生存学研究所所長立岩真也は障害学会会長であり、本報告は同氏の指導を受け執筆された。

[11]　Goldberg, Larry 2011 「Media Accessibility in the US, Innovations for Today and Tomorrow」, 『NHK技研 R&D』 No.129：2-11.

[12]　佐藤庄衛 2018　「聴覚障害者のための生放送番組への字幕付与システム」, 『日本音響学会誌』 74-3：163-170.

[13]　佐藤[2018:165]（前掲12）

[14]　井部千夫美 2019 「米国における視聴覚障害者等向け放送の現状と課題」, 『情報通信政策研究』 3-1：91-106.

[15]　Aleš Pražák et al. 2020 “Live TV subtitling through respeaking with remote cutting-edge technology” Multimedia Tools and Applications, vol.79：1203-1220.

[16]　前掲3を参照されたし。

[17]　アドバンストメディア社 2014-2020 「議事録・書き起こしについてのご質問」, https://www.advanced-media.co.jp/sp/faq/proceeding. によれば「音声認識精度は何パーセントですか？　会議の内容や発話者、録音環境により変化します。原稿を読む等、整然と発言される傾向が強い地方議会や、大手企業の役員会議などフォーマルな会議の場合は、90％以上の認識率が出るケースも多い一方、軽微なミーティングや打合せ等になると認識率は50％～80％程度が多いと思われます。いずれにしても、スタンドマイクやハンドマイク等、口元で音を拾えない場合は、認識精度が大きく下がるケースが多いです」とある。（最終閲覧日：2020/09/08）

[18]　アドバンストメディア社[2014-2020] (前掲17)によれば「アナウンサーのような明瞭な喋り方であれば、高い認識精度が出ます」とある。（最終閲覧日：2020/09/08）

[19]　河原達也・秋田祐哉 2018 「聴覚障害者のための講演・講義の音声認識による字幕付与」, 『日本音響学会誌』 74-3：156-162.

[20]　河原・秋田[2018:159-160]（前掲19）

[21]　河原・秋田[2018:159]（前掲19）

[22]　日本財団電話リレーサービス・モデルプロジェクト 2014-2019 「よくある質問・お問い合わせ」https://trs-nippon.jp/faq. によれば、同サービスは「聴覚障害者と聴者を電話リレーサービスセンターにいる通訳オペレーターが“手話や文字”と“音声”を通訳することにより、電話で即時双方向につなぐサービス」である。同財団は厚生労働省による補助金を受けて電話リレーサービスを運用しており、国によるサービス提供の開始される2021年をもって、プロジェクトは終了する。日本財団提供によるサービスでは、緊急通報は行えない。（最終閲覧日：2020/09/08）

[23]　例えば、NTT DOCOMOが「みえる電話」サービスとして、通話音声のテキスト化と、入力テキストの音声化を行っている。

[24]　法律第五十三号（令二・六・一二）「聴覚障害者等による電話の利用の円滑化に関する法律」。

[25]　報道機関等により、26あるいは27か国目であるか、発表にばらつきがあるようである。

[26]　河原[2018:381] (後掲 27)によれば、音声認識技術研究の歴史は60年以上にわたり、昨今の人工知能ブームにより、技術は革新的進歩を遂げた。

[27]　河原達也 2018 「音声認識技術の変遷と最先端 ――深層学習によるEnd-to-Endモデル」, 『日本音響学会誌』 74-7：381-386.

[28]　手話通訳は株式会社ミライロ、文字通訳はNPO法人ゆにが行った。

[29]　ただし、例えば、利用者が使用する機器の画面サイズの制約を受けることになる。同制約は、有線で映像をテレビモニタに転送することなどで解決可能な場合があるが、そのことは、いわゆるデジタル・ディバイドに関する議論につながるだろう。

[30]　この間の出来事で、それら情報機器が、現在利用されている特定の機能によってではなく、機能の拡張可能性によって、生活に欠かせない機器であるとみなされたと言っても過言ではないのではないか。

[31]　あるいは、話者以外の誰かが字幕生成を行い、それが可能となるよう、話者はゆっくりと話すということでも良いだろう。

[32]　前述の通りその際は、電子テキスト情報が保持されていることが望ましい。電子テキスト情報としての公開ができない場合でも、別途の情報保障の要求等に対応できるよう、情報提供者が保管しておくべきであろう。

[33]　山田肇・遊間和子 2015 「地方公共団体ウェブサイトにおける防災情報提供：ユーザビリティとアクセシビリティの観点から」
　　URL：http://www.jsicr.jp/doc/taikai2015/spring/D-3.pdf（最終閲覧日：2020/09/08）

[34]　山田・遊間[2015:20] (前掲33)によると、JIS規格である、「JIS X 8341-3:2016」には、A(最低レベル)，AA , AAA(最高レベル)の適合レベルがあり、総務省は2016年、2017年までに公的機関のサイトを同規格のレベルAAに準拠させることを目標とした。最低のレベルAの達成基準には「画像などの非テキストコンテンツに同等の目的を果たすテキストによる代替を提供”することや “リンクの目的がリンクのテキスト単独で判断できるようにする」ことが含まれるが、2015年に山田らが調査を行った段階では、レベルAの達成基準すら満たしていなかったことが明らかにされた。

>TOP

■質疑応答

※報告掲載次第、９月19日まで、本報告に対する質疑応答をここで行ないます。質問・意見ある人はtae01303@nifty.ne.jp（立岩）までメールしてください→報告者に知らせます→報告者は応答してください。宛先は同じくtae01303@nifty.ne.jpとします。いただいたものをここに貼りつけていきます。
※質疑は基本障害学会の会員によるものとします。学会入会手続き中の人は可能です。→http://jsds-org.sakura.ne.jp/category/入会方法　名前は特段の事情ない限り知らせていただきます（記載します）。所属等をここに記す人はメールに記載してください。

＊頁作成：岩﨑弘泰

UP: 20200918 　REV:

◇障害学会第17回大会・2020　 ◇障害学会　 ◇障害学　 ◇『障害学研究』　 ◇全文掲載

TOP　HOME (http://www.arsvi.com)◇