プレビューappでPDFを編集後、日本語OCRテキストが消える

Question

kurikuri54 作成者

レベル 1

5 ポイント

プレビューappでPDFを編集後、日本語OCRテキストが消える

現在、仕事で多くの紙媒体をスキャンし、OCR化して保存しています。

Macのプレビューを使って検索するのが最も速く、効率的なのですが、困ったことが起きています。

PDFは読み取ったものは元のPDFの末尾に結合し、保存しています。困ったことに上書き保存の際、日本語のOCRテキストが消えてしまいます。

文書は英語、数字、日本語が入り交じっているものです。

オートセーブをOFFにして別名で保存してもダメでした。保存がかかるとこうなってしまうようなんですが・・・。

どなたか解決法をご存じないでしょうか。

使用機器

富士通　ScanSnap iX5000

iMac OSは10.9.3

iMac, OS X Mavericks (10.9.3)

投稿日 2014/06/26 08:35

返信

Answer 1

kurikuri54 作成者

レベル 1

5 ポイント

2014/07/14 00:00 Junkot への返信

返信が遅くなって申し訳有りません。

結論から言いますと，2重でOCRをかけていたのが原因だったようです。

以下のパターンを試してみました。

1. ScanSnapでスキャンand OCR変換→プレビューで編集

2. スキャン→AdobeでOCR変換→プレビューで編集

3. ScanSnapでスキャンand OCR変換→AdobeでOCR変換→プレビューで編集

上記の1と2では，OCRテキストは消えませんでしたが，3ではやはり消えてしまいました。

しかし，単発のOCR化では精度が悪く（文字の誤認識ではなく，認識していない文字がある／英語の認識が悪いなど），実用ではGoサインが出ませんでした。2重にOCRをかけるとGoサインが出ました。

僕にはどこがいけないのか分かりませんが，いつか改善されることを願いながら別の閲覧ソフトで運用します。

先日リンクを貼った方は2重OCR変換はされていないと思いますので，この方とは原因が違うかもしれませんね。

検証していただいたり，アドバイスもいただきありがとうございました。

返信

Answer 2

やすどん

レベル 9

61,542 ポイント

2014/06/30 10:15 kurikuri54 への返信

　私が使用している読取革命Liteでは読み込んでテキスト化した物は別途テキストファイルで保存しています。そちらの日本語のOCRがなんであるのかを書かれていないので詳細がわかりませんが、どのようにしてPDF上にテキスト化したものを貼付けているのでしょうか。

そのアプリ特有の機能を使用してるのであればそれが何であるのかを書いてもらえればヒントになるかも。

また、他のPDFを読み書き出来るアプリで動作確認してみると、今回の原因がどのアプリに起因する物なのか絞り込めるかも。

返信

Answer 3

Junkot

レベル 6

12,365 ポイント

2014/06/30 20:47 kurikuri54 への返信

ScanSnap iX500（5000ではないですよね？）は私も使っているので、PDF&OCR化の手順を（設定なども）もう少し具体的に書いてくだされば同じ現象が起きるか試すことができます。

ScanSnap の OCR 機能（ファイル形式で「検索可能なPDFにする」を選択）をお使いですか？そうなら、

PDFは読み取ったものは元のPDFの末尾に結合し、保存しています。

「元のPDF」というのがよくわかりません。元は紙原稿なんですよね？　スキャンすると同時にOCRをかけて検索可能なPDFを作成するので、PDFはひとつしかできないはずですが…

日本語のOCRテキストが消えてしまいます。

これは、日本語の文字列が検索してもヒットしないということでしょうか？

返信

Answer 4

kurikuri54 作成者

レベル 1

5 ポイント

2014/06/30 22:32 kurikuri54 への返信

やすどん　さん

junkot　さん

返信いただき感謝します。

追加で詳細な情報を・・・。

私は医療機関で働いています。ウチでは，まだ依頼書や報告書を紙で運用しています。その紙を電子化し，保存するのにScanSnap ix500を導入しました。

読み取りの設定は日本語であとはすべて自動です。もちろん「検索可能なPDFにする」を選択しています。

「元のファイル」というのは私の表現が悪かったですね・・・申し訳ありません。

OCR化したファイルの末尾に新たに読み込んだOCRファイルを結合して，一つのファイルとして保存していくという意味です。

そのファイルに何も変更を加えない限りは日本語で検索してもヒットしますが，何か変更を加えた（ページの移動や追加）場合，なぜか日本語の透明化テキストが消えてしまい，検索もヒットしない状態です。ちなみに数字は検索にヒットします。

http://ysnhrk.blogspot.jp/2014/01/macpdf.htmlこのサイトの方と同じ現象です。

今はプレビューではなく，skimというソフトを使っていますが，メモリをすごい食うし起動は遅いし・・・ってとこです。

返信

Answer 5

Junkot

レベル 6

12,365 ポイント

2014/07/02 00:39 kurikuri54 への返信

kurikuri54 さん

10.9.3 の環境で試してみましたが、現象を再現できませんでした（2枚のPDFを結合後も日本語の検索ができました）。そこで、

OCR化したファイルの末尾に新たに読み込んだOCRファイルを結合して，一つのファイルとして保存していく

この方法を具体的に教えていただけませんか。私が実験したのは次のような方法です。

1. 英語、日本語の混じった原稿を2枚用意します（手書きとはいかないので、パソコン内にあるファイルをプリントアウトしました）。

2. ScanSnap で別々にスキャンし（Test1、Test2 という名前にしました）、それぞれ適当な日本語が検索できるのを確認

3. Test1 をプレビューで開き、左側のサムネイルの欄に Test2 をドラッグ。これで2枚のPDFが１つのウインドウに表示されます。この時点でも検索可能であることを確認。

4. ファイル＞プリントと選択してプリントダイアログで「PDFとして保存」を選択。Test1_2 という名前にして保存しました。

5. Test1_2 をプレビューで開き、日本語の語句を検索しましたが、正常に検索できました。

ご紹介のリンク先の現象も、私の環境では再現できませんでした。マーカーでハイライトしたり、メモを付けたりして保存したあとでも、日本語の検索に問題はありませんでした。「ネットで調べても情報が見つからない」と書いておられるので、もしかしたらプレビューの問題ではなく、それぞれの環境に原因があるのかもしれません。それを確かめるには、Mac に別のユーザーアカウントを作成してそちらで現象が出るかを見るという方法が有効かと思います。

返信

Answer 6

kurikuri54 作成者

レベル 1

5 ポイント

2014/07/02 22:43 Junkot への返信

Junkot さん

検証していただきありがとうございます。

その手順で間違いないです。

再現できませんでしたか・・・。

別ユーザーでは試していないのでやってみます。

余談ですが，ScanSnapでOCRに変換した後にAdobe Acrobat XIで再度OCR変換をかけていたこともあります。

理由としては，単発のOCR変換だと日本語か英数字かしか変換できておらず，両者の読み取り精度を上げるためです。設定としては，ScanSnapで日本語，Adobe Acrobat XIで英語の変換です。

また，単発だとどうしても透明化テキストの重なる？位置が見た目の文字とずれており，その現象も上は嫌ったようです。2段階で変換すると文字のずれはなく，病院のシステムとして合格が出ました。

単発変換，2段階変換のどちらにしても現象は起きているので，まずは別ユーザーで試してみます。

もし別ユーザーでうまくいった場合は，メインアカウントの何かしらの修復作業が必要ということでしょうか？

返信