読者です 読者をやめる 読者になる 読者になる

自炊入門

概要



自炊の流れ



必要な道具

裁断


取り込み
ドキュメントスキャナ 数百ページの紙を取り込むには、ADF搭載のドキュメントスキャナが必須です。 FUJITSU ScanSnap S1500
パソコン 最近のパソコンであれば、まず問題ありません。 MacBook Pro (Core i7 2.66GHz, 8GB DDR3, SSD)
OCRソフト OCR処理をするなら必要になります。 Adobe Acrobat X Pro


閲覧
スマートフォン ほぼいつでも携帯しているデバイスですから、手軽さは一番です。 iPhone 3GS
タブレットPC 薄くなって扱いやすくなりました。やっぱり画面は大きい方が読みやすいです。 iPad 2
PDF閲覧ソフト PDF閲覧ソフトの定番です。非常に高機能。 Good Reader



裁断

キンコーズ
背表紙を裁断してもらって、一冊100円です。業務用の裁断機で裁断するので、ハードカバーでも表表紙・裏表紙ごとズバッとやってくれて、切り口も綺麗です。
カッター
薄い冊子は普通のカッターで背表紙を切り落としています。



取り込み

取り込みにはScanSnapに付属のScanSnap Managerを使っています。

OCR処理でダウンサンプリングするため、オリジナルは[画質の選択]をエクセレン(白黒画像は1200dpi、カラー/グレー画像は600dpi)にしています。

またファイルサイズを小さくするために[カラーモードの選択]を白黒に、何回かに分けて取り込むために[継続読み取りを有効にします]を有効にしています。ただし図版や写真を含む原稿では[カラーモードの選択]をグレーにしたり、一回で取り込める量の原稿では[継続読み取りを有効にします]を無効にするなど、原稿に応じて適宜変更しています。

オプションはデフォルトのままです。[文字列の傾きを自動的に補正します]を有効にすると、たまに誤認識して歪むことがあるようです。

雑誌の付録冊子をスキャニングしたときの設定です。図版を多く含む原稿だったので[カラーモードの選択]をグレーに、70ページ弱と一回で取り込める量だったので[継続読み取りを有効にします]を無効にしています。

OCR処理をするために[ファイル形式の選択]をPDFにしています。ただしOCR処理はAcrobat X Proで行うため、ここでは[読み取り可能なPDFにします]を無効にしています。

[マルチフィード検出]を重なりで検出(超音波)にしています。自炊では糊残りや紙質によってしばしば重送が発生し、しかもADFで大量の紙を取り込んでいるためにややもすると見落としてしまうのですが、これまでのところこの機能を使って検出できなかったことはありません。ScanSnap S1500の神機能のひとつと言えるでしょう。

デフォルトのままにしています。



OCR処理

OCR処理にはAcrobat X Proを使っています。

[ファイル]の"アクションウィザード"から"スキャンした文書を処理"を選びます。

ステップを確認し、処理するファイルを選びます。

テキスト認識のオプションを設定し、OCR処理を実行します。通常は[PDFの出力形式]をClearScanに、[画像のダウンサンプリング]を300dpiにしています。オリジナルの解像度が低く、ダウンサンプリングによる劣化を避けたいときは、[PDFの出力形式]を検索可能な画像(非圧縮)にします。

概要を入力し、タグを生成して保存します。



PDFの出力形式

出力形式の種類

Acrobat XにおけるOCR処理では、[PDFの出力形式]を次の3種類から選択できます。

検索可能な画像 スキャン画像に透明なテキストを重ねます。スキャン画像は[画像のダウンサンプリング]にしたがって圧縮されます。ファイルサイズが小さくなる反面、元の解像度が低いと細い線が潰れることがあります。
検索可能な画像(非圧縮) "検索可能な画像"と同じ手法ですが、スキャン画像は圧縮されず、もとの解像度がそのまま適用されます。
ClearScan スキャン画像に元のフォントに酷似したType3フォントを合成して重ねます。フォントに置き換えることで、拡大・縮小しても文字がクリアに表示されます。また、文字に重なった背景画像もそのまま表示されます。"検索可能な画像"と同じく、スキャン画像は[画像のダウンサンプリング]にしたがって圧縮されます。Acrobat 9から追加された機能です。
出力結果の比較

300dpiでスキャニングした元の画像を、それぞれの出力形式でOCR処理してみました。ダウンサンプリングを選べる場合は、300dpiに統一しています。

元の画像(300dpi)、1.2MB

検索可能な画像 + 300dpi、344KB

検索可能な画像(非圧縮)、1.4MB

ClearScan + 300dpi、406KB


ファイルの命名

閲覧