ClearScan で自炊するときの問題点

最新情報はこちら→無料で始める研究者のための自炊技術 (2011 年 1 月暫定版)

iPad まだ持ってないんですが、将来的に自炊*1するとき用の問題点の覚え書き。近いうちに解決されると良いけど。

前にも書いたんですが、元々電子化されていない、古い文献を scan したものを iPad で読むと使い物にならない重さです。我々の業界では SAO/NASA ADS で古い文献が PDF 化されており、論文を読みたいときに頻繁に利用します。しかしこのような紙媒体を scan して PDF 化した場合、文字情報が全て bitmap になっているため、scroll や拡大縮小がもたつきますし、また本文を検索することができません。表示速度に関しては、最新の Mac でも遅いのだから、当然 iPad でも遅いです。


▲ ADS で落とした論文 PDF を iPad で表示させたら死にそうな図

そこで注目の技術が Adobe Acrobat 9 に搭載された ClearScan という機能。Bitmap で表示された文字から自動的に輪郭を検出し、埋め込み font を新たに生成するというもの。文字が全て vectorize されるので、拡大縮小もサクサクですし、OCR を同時に行うため本文の検索もできるようになります。

しかしこれで全て解決というわけではなく、色々と副作用があります。

ClearScan の仕方

例えば、Dickey & Lockman (1990) あたりでも処理してみましょう。全部で 47 page あります。

まずは好きな PDF を用意して、menu から OCR を選択します。


次に、OCR の設定で ClearScan を選び、とりあえず downsampling を 600 dpi にします。


OK を押せば、後は勝手に OCR が実行され、文字が全て検索可能になり、さらに bitmap だったものが vectorize されます。Core i7 の 2.66 GHz で 10 分弱です。

ClearScan の完了後に PDF をパッと見ると良さそうな感じですが、以下に述べる通り色々と問題が。日本語と英語の両方で調べてみましたが、これらを解決する方法は今のところ見つかっていません。ClearScan は非常に面白く便利な機能であるため、残念です。

問題点

問題 1 画像が強制的に downsampling される


▲ 元画像


▲ ClearScan 後

元の PDF と、ClearScan をかけた後の PDF を並べてみました。後者では、縦軸が消えてしまっていることが分かります。ClearScan をする場合には downsampling が強制のため、元の画像を回転したりの補正が入った上で再保存されます。そのため、線が細いところや小さい箇所は消え去る場合があります。例え元の PDF が 600 dpi だったとしても、downsampling は強制です。

既に scan されたものではなく、自分で scan した本の場合であれば、600 dpi よりも高解像度で読み取っておくことをお勧めします。ScanSnap だと、1200 dpi までいけるはずです。1200 dpi であれば、downsampling されても、細い線が潰れるということはないはずです。

問題 2 Preview.app で再保存すると文字情報が失われる

ClearScan した PDF を、Adobe Acrobat ではなく OS X 付属の Preview.app で開いて再保存した場合、文字情報が全て失われます。本文の検索はできなくなるし、コピペしようとすると文字化けします。これではせっかく OCR をかけた意味がありません。

もちろん、Acrobat で再保存であれば問題ありません。ただし、Acrobat って使い勝手があまり良くないので、Preview.app を Mac では使いたいですよね。もし PDF に注釈を書いたりしたいのであれば、Skim を使うことで PDF 自体を弄らないで済みます。ただし、Skim for iPad が存在しないのが問題です。

問題 3 画像のところだけ極端に重たくなる

ClearScan をかけた後に文字情報は軽くなるにも関わらず、図の部分が異常に重たくなります。元の PDF は 600 dpi で、ClearScan 時の downsampling を 600 dpi に指定していても、ClearScan した後の図の部分は拡大縮小や scroll にひと呼吸必要になります。図の部分の表示に関しては、元の PDF よりも劇的に遅くなります。

(追記) PDF へ保存後、さらに PDF/X で再保存すると画像部分が非常に軽くなることが分かりました。iPad で読んでもサックサクです。ヌメヌメ動きます。OCR 後に直接 PDF/X へ保存するのでは、この効果は出ません。PDF/X にすることでの副作用は不明です。

Acrobat X が出たので試してみた

2010 年 11 月に Acrobat X が出たので、OCR に差が出るか試してみました。OCR engine が改善されているそうですが、機能面では Acrobat 9 と大差なし。試しに使ってみた論文は、Dickey & Lockman (1990) です。

以下、試してみた違いです。Acrobat X を使うと PDF の大きさが半分くらいになりました。

元 PDF Acrobat 9 + ClearScan Acrobat X + ClearScan
File size 5 MB 1.2 MB 0.8 MB
文字 ギザギザ そこそこ綺麗 9 より若干滑らか
画像の scroll やや重い とても重い 9 と変わらず重い
Preview での保存 回避推奨 回避推奨
画像の down sampling 細い線は消える場合あり 9 より若干まし

これに加えて、Acrobat 9 では "difficult" のような単語が "difffificult" と認識されたり、"off" が "offf" となったりしていたのが、Acrobat X では正常に認識されるようになりました。9 では "f" や "i" のように連続すると形を変化させる文字への対応が悪かったようです。文字の認識精度を高めたいのであれば、やはり Acrobat X がお勧めです。

*1:「自炊」ってのは家でご飯作ることじゃなくて。