PDFをテキスト形式に
PDFファイルをテキスト形式に変換する方法を探しています。
ご存知の方お願いします。
iMac, Mac OS X (10.6.2)
PDFファイルをテキスト形式に変換する方法を探しています。
ご存知の方お願いします。
iMac, Mac OS X (10.6.2)
お金をかけたくないとして、
PDFファイルを開いて、文字を選んでコピペではだめでしょうか?
AdobeのAcrobat (Readerではなく有料版)を買えば、Wordやリッチテキスト形式で保存することは一応可能です。
# 一般的なPDFファイルは画像ファイルの一種で、元の文書情報(文章としての構造)を保持しているわけではないので、完全に元通りの情報を得ることは不可能です。
このメッセージは次により編集されています: Hit-C
ありがとうございます。
やったんですけどだめでした。すべて文字化けです。
テキストとして保存できるドキュメントならファイルメニューに「テキストとして保存」が
現れませんか?
PDFはドキュメント作成者が出来る範囲を決定できるので利用者が出来る事は
限られる。
やったんですけどだめでした。すべて文字化けです。
こちらで試した日本語文書では文字化けせずにコピーできてます。
どのように作成したpdfファイルでしょうか?
またまたありがとうございます。
それも試しましたが駄目でした。
やったんですけどだめでした。すべて文字化けです。
やったというのは、どうのようにやったんでしょうか?
数式などの記号書体などの特殊な書体でもない限り、PDF上で文字を選択してコピー、テキストエディットの新規書類にペーストで問題ないはずですけど。たとえば、エディタにコピーしてから書体を変更してみたりしても変わりませんか?
あと、Adobe Readerならテキストに書き出しもできますが。
うまい解決策でなくてすみませんが,何か参考になればということで私の経験を。
echumingua さんによる書き込み:
ありがとうございます。
やったんですけどだめでした。すべて文字化けです。
元はMS Word書類だと思うのですがOS Xの印刷機能でPDF化されたものと思われるファイルを原稿として受け取ったことがあり,元のWordファイルを渡してくれなかった理由は不明で,その辺に原因があるのかも知れませんが,そのPDFから文字列をコピーペーストでもってこようとしたら,文字化けして使えなかった経験があります。結局急いでいたこともあり,その時は,印刷してスキャナで読み込んで日本語OCRにかけました。
一見普通のPDFでも、コピーすると変な文字に化けてしまうことがあります。
マイクロソフトのオフィスと一緒にインストールされるフォントの一部を使ったPDFをプレビューで保存し直すと、PDFとしては正常に見えるのですがコピーした内容は化けてしまいます。
たとえば、Batang(他にCalibriやDFP行書体など)というフォントで作った文書(テキストエディットでも何でも可)をPDFとして保存します。
このPDFは文字を選択して正しくコピー&ペーストできます。
次に、このPDFをプレビューで開いて「別名で保存...」すると、保存し直したPDFからコピーした内容はペーストした時に化けます。
例えば、「123」が「)*+!"#」になってしまいます。
Adobe Readerでテキスト保存しても化けてます。
投稿者がうまくコピーできなかったのはこのようなPDFではないでしょうか。
それとも全てのPDFで化けてしまうのでしょうか。
解決方法があるなら、私も知りたいです。
プレビューで開いて、PDFで保存し、再度開いたものからコピーしてはどうでしょう?
こういうときはWindowsでやるとすんなりうまくいくことが多いです。
さて、Macではこのあたりの便利ツールが有効かもしれません(詳細は GoogleかVersion Trackerで)。
1. ファイルから画像やtextを取り出す: File Juicer
2. textの行詰めなど一発編集: Transform
3. copyしたtextのフォント情報の除去: CiPT
PDFをテキスト形式に