HOME >

スキャン→OCR→校正

異なる身体のもとでの交信――情報・コミュニケーションと障害者
視覚障害テキストデータ入手可能な本

last update:20110108


青木 慎太朗 編 2010/03/25 『視覚障害学生支援技法 増補改訂版』,生存学研究センター報告12,208p. ISSN 1882-6539 ※

第2章 視覚障害者用支援機器と文字情報へのアクセス 韓 星民 33-83

資料編 テキスト校正ガイドブック 立命館大学障害学生支援室 174-202

◆立岩 真也・天田 城介 2011/**/** 「……」,『生存学』4

「□OCRで読みとるという術
立岩:余計なこと言うと、なんか老人のような話ですけど、僕らの年までは修論とかって手書きだったんだよね。次の年、一九八六年度からワープロで書いたものを出してもいいみたいになって。というか、ほんとにワープロが普及しだしたのが一九八〇年代の前半ですよ。最初ワープロ専用機っていうのをみんな使ってた。富士通の「オアシス」とか。それには「親指シフト」というキーボードがあって、私のようなごく少数の人間は今でも呪縛から抜けられず、エミュレーション・ソフトでその方式でキー打ってるんですけど。コンピュータそのものがそんなに大衆というか一般的なものじゃなくて、僕も最初にコンピュータ買ったの八七年とかです。
 そういう時代です。だから石川さんは最初期にコンピュータに目をつけたというか。必要にかられてということもあるし、好きでもあったんでしょうね。で僕が読む本も最初は社会学とかで、いちおう勉強にもなったんですけど、そのうちコンピュータのプログラミングの本が増えてくる。僕のバイトの後半はそういう本を読む仕事になってきて、僕はプログラムってまったく理解できませんから、アルファベットをただ順番に読んでいくみたいな、一冊まるっきりわからない本を読むっていうことをやっておりました。それで石川さん自身がプログラミングができる人で、今は彼は大学の教員であるとともに自分で会社を立ちあげてそういうソフト作って販売するみたいなことをやっています。儲かっているのかな。
 そんなこんなでその当時はテープに録音して聞くっていうやり方でやっていた。もちろん点字も使っていましたけど、ご存じのように点字の本はやたらかさばりますから、辞書一冊本棚一つみたいなことになってしまいます。個人的な話になりますけど僕は三鷹で彼は吉祥寺で、一駅離れたところに住んでいたこともあり、彼のところに行ったりしたことはあって、ずらっと点字本が並んでいたからそういうのも使ってたと思うし、カセットテープが山のように机の引き出しに入ってたことも記憶してます。
 そして、いつごろからかは本人に聞くしかないですが、紙に印刷されているものをスキャニングしてOCR(光学文字読み取り)ソフトにかけてテキストデータにして音声化するソフトにかけて聞くことを始めた。彼が一番最初、ということではないにせよかなり初期の人だったとは思います。
 OCRの精度が上がらないと実用にならない。日本語には文字がいっぱいありますから非常に変換率というか認識率が悪い。英語の方がアルファベットがずっと楽なんですよね。だから英語圏というかアルファベット文字を使う文化圏の方が導入と実用化は早かったと思います。日本では、スキャナは今と比べると値段は高かったけれどそこそこの精度のものはわりと早く出てきました。ただ、八〇年代後半とかでもあまり精度の高いOCRは存在してなかった気がします。僕も一つ買ったことあるけど使いものにならなかった。
 それが実用に耐えるものになるにつれてそういったその利用が一般化していったんだろうなと。そこら辺が実際はどうであったのかというあたりは、調べたい人は調べたらよいかと。そんな難しいことじゃないです。まず石川さんに聞きにいけばいいから。聞きに行けば教えてくれるはずなので、そういったあたりから他の人に広げるなりしてどんな感じで進んできたのかを調べていけるだろうなと。
天田:ノウハウとして例えば実際ある意味では前向きな話で、過去についてはほとんど僕も植村・櫻井論文等で初めて知ったというか、その前後の関係というかだいたい知ったところでありますけれども、先ほど言った録音テープ状況からパソコンが例えば石川さんが三〇の時に一九八八年ぐらいですから、そうするとここでさっき言った親指シフト系のソフト、ワープロソフトを使っていくと。そうするとその後ですよね、石川准さんがニューヨーク市立大学に行くのは。
立岩:今度安田君がそのお金で英国に行きますけど、昔からダスキン、ミスタードーナツの障害者の海外留学の制度であって。
天田:石川さんがニューヨーク市立大に行くのは、ちょうど立岩さんたちが『生の技法』を調査するちょっと前に行ったわけですよね。きちんと調べてないからいい加減なこと言えないんですけど、櫻井さん・植村さんとかから聞く限りはどうやら米国留学中、パソコンの音声リーダーを知って、衝撃を受けたというのは確からしいんですけど、その時にいわゆるスキャニング等OCRまで知ってたかどうかっていうとどうもわからないと。今後調べるしかないというか聞きゃいいだけなので調べていく必要があります。ただ当時の技術がどうだったのかというのと、その後日本に帰ってきてそれこそアルファベットなら精度が高く読めたものを石川さんがOCRを開発することもできないわけですから、ある時代を待ってですよね。そうすると最初はいわゆる制度はあんまり高くないOCRで読み上げつつ実験的にやりつつ流し読み感覚で文字ばけしたり、違った文字にいわば読みこんでもざっと読んでいった感じなのかというのもちょっとわからないですよね。
立岩:彼は、わりきったというか、合理的なというか、そういうところがあって、ざっとわかればいいと。ざっとわかってどうしてもいるなら校正してもらえばよく、とにかくないよりはあった方がましだみたいな感じで、特に校正に時間をかけたりということはなかったのではないかと思います。
 それももしかすると彼が編み出した方法かもしれないけど、本二冊買って一冊は本棚に、一冊は裁断機で裁断してオートシートフィーダーにかけて自動でスキャンしてファイルにしてということをやり始めたんだよね。私のおぼつかない記憶だと音声で聞く装置自体はかなり僕が出入りしてた八〇年代からもう使ってて、皆さんも安田さんが聞いてるのとか聞くとびっくりすると思いますけど、聞きとれないなおそるべきスピードで聞いている。非常に素朴にへえって感心した記憶もあります。
 エピソード続けると、「デイジー(DAISY)」という規格を広める活動の中心にいる河村宏さんは、当時東大の図書館に勤めていて石川さんの支援というか職員として関わるようになって、それもきっかけでデイジーの普及に力を尽くされているというお話をうかがったこともありますね。

□大学で
天田:例えばスキャニングOCRも当時パソコンがそれほど普及してないですから、やってもらう人も限られると思うんですよ。やりつつ覚えるということもあると思いますけど、石川さんが例えば仮に音声リーダーは留学中に知り、その中でもしかしたらスキャニングOCRの技術もちょっとは知って、日本である程度合理的に間違ってもいいやというか、精度が低くてもいいやといって使い始めて実験的にやっていった。ただそれを誰に依頼してたかとか、どういう大学教員だったら少しは身銭をけずってということもありえますけど、その間ってどうしてたかな。
立岩:大学院生の時はあんまり僕の記憶ではない。そうかもしれないんだけど、それを院生がバイトでやったという記憶はないんですよ。彼はその後、静岡県大に就職してそうやって読みとって聞くというか、それを大々的にというかな、やりだしたのはそっちに就職してからだったかもしれない。ずいぶん大学とはすったもんだあったみたいですけれども、結果的にはというか自分のアシスタントというかな、そういう人を雇ってもらってというかそれでそういう人たちにかなりの部分やってもらってるという、今でもそうしているんじゃないかなと思います。学生としてよりは労働者というか教員の一人として必要な費用を大学が出しているということではないかと。

 […]

天田:細かなことでちょっと申し訳ないですけど、ただテキストデータの時にこれも立岩さんから前聞いたことだけど例えばページを区切ると細かな編集上の作業でやらざるをえないものがあると。そうすると先ほど言った一〇〇〇冊データベースにあるものもかなり一定度手を入れていわゆるファイルとしての統一性とか、形式的統一性とかそういうものは手を入れざるをえないわけですよね。
立岩:そうですね、ファイル名の統一とかいうあたりから始まって、そこそこやることはあるんですよ。大変だとも言えるし、慣れればなんとかというところもある。どっちの側面もあるんですけど。
天田:例えばファイル名みたいにある程度誰でもできるというかよりは、ページの区切りを入れるとか。
立岩:画像どうするとか図をどうするみたいな話はちょっと難しい問題ですけど、形式的にページの区切りのところにページ数を入れてここ自体はいっぺん教えればそのとおりにやっていける。
 次に話す大きめなことに関係させると、例えば石川さんなんかは、とりあえずあればよし、スピード第一みたいな感じで今までやってきた。それ一定の合理性を持っていたんですが、公共のものとして、複数の人が使えるデータとして蓄積していくことが合法的になりつつあるわけですから、そういう意味では、ざっと作ってというより、どうせいっぺんでよいわけだから、きちんとした間違いのない校正の済んだものを作ってそれをしかるべきところに置いておき、使えるようにするということになります。」


UP:20100108 REV:
視覚障害 
TOP HOME (http://www.arsvi.com)