自炊の流れ
裁断
- キンコーズ
- 背表紙を裁断してもらって、一冊100円です。業務用の裁断機で裁断するので、ハードカバーでも表表紙・裏表紙ごとズバッとやってくれて、切り口も綺麗です。
- カッター
- 薄い冊子は普通のカッターで背表紙を切り落としています。
取り込み
取り込みにはScanSnapに付属のScanSnap Managerを使っています。
OCR処理でダウンサンプリングするため、オリジナルは[画質の選択]をエクセレント
(白黒画像は1200dpi、カラー/グレー画像は600dpi)にしています。
またファイルサイズを小さくするために[カラーモードの選択]を白黒
に、何回かに分けて取り込むために[継続読み取りを有効にします]を有効にしています。ただし図版や写真を含む原稿では[カラーモードの選択]をグレー
にしたり、一回で取り込める量の原稿では[継続読み取りを有効にします]を無効にするなど、原稿に応じて適宜変更しています。
オプションはデフォルトのままです。[文字列の傾きを自動的に補正します]を有効にすると、たまに誤認識して歪むことがあるようです。
雑誌の付録冊子をスキャニングしたときの設定です。図版を多く含む原稿だったので[カラーモードの選択]をグレー
に、70ページ弱と一回で取り込める量だったので[継続読み取りを有効にします]を無効にしています。
OCR処理をするために[ファイル形式の選択]をPDF
にしています。ただしOCR処理はAcrobat X Proで行うため、ここでは[読み取り可能なPDFにします]を無効にしています。
[マルチフィード検出]を重なりで検出(超音波)
にしています。自炊では糊残りや紙質によってしばしば重送が発生し、しかもADFで大量の紙を取り込んでいるためにややもすると見落としてしまうのですが、これまでのところこの機能を使って検出できなかったことはありません。ScanSnap S1500の神機能のひとつと言えるでしょう。
デフォルトのままにしています。
OCR処理にはAcrobat X Proを使っています。
[ファイル]の"アクションウィザード"から"スキャンした文書を処理"を選びます。
ステップを確認し、処理するファイルを選びます。
テキスト認識のオプションを設定し、OCR処理を実行します。通常は[PDFの出力形式]をClearScan
に、[画像のダウンサンプリング]を300dpi
にしています。オリジナルの解像度が低く、ダウンサンプリングによる劣化を避けたいときは、[PDFの出力形式]を検索可能な画像(非圧縮)
にします。
概要を入力し、タグを生成して保存します。
PDFの出力形式
出力形式の種類
Acrobat XにおけるOCR処理では、[PDFの出力形式]を次の3種類から選択できます。
検索可能な画像 |
スキャン画像に透明なテキストを重ねます。スキャン画像は[画像のダウンサンプリング]にしたがって圧縮されます。ファイルサイズが小さくなる反面、元の解像度が低いと細い線が潰れることがあります。 |
検索可能な画像(非圧縮) |
"検索可能な画像"と同じ手法ですが、スキャン画像は圧縮されず、もとの解像度がそのまま適用されます。 |
ClearScan |
スキャン画像に元のフォントに酷似したType3フォントを合成して重ねます。フォントに置き換えることで、拡大・縮小しても文字がクリアに表示されます。また、文字に重なった背景画像もそのまま表示されます。"検索可能な画像"と同じく、スキャン画像は[画像のダウンサンプリング]にしたがって圧縮されます。Acrobat 9から追加された機能です。 |
閲覧