フランス語が解析できるocrソフト
フランス語が解析できるocrソフトを探しています。以前omnipage pro direct を使っていましたが、新しく購入したmacbookには対応できないようでした。お手頃なソフトを教えていただければ助かります。Smarcel
MacBook, Mac OS X (10.4.11)
フランス語が解析できるocrソフトを探しています。以前omnipage pro direct を使っていましたが、新しく購入したmacbookには対応できないようでした。お手頃なソフトを教えていただければ助かります。Smarcel
MacBook, Mac OS X (10.4.11)
とりあえずの間に合わせですけど、googleドキュメントに画像をアップすると解析してくれると思います(仕様的にフランス語に対応しているはずですが未確認)。
日本語で使ってみた印象で精度はスキャンやデジカメの撮影のやり方で相当変わりましたので、工夫すると精度がアップするかもしれないです。
アップロードは1書類で2MBの制限がありますので、とちょっと厄介かも。
あとevernoteも出来そうですが、使ってないので解りません。
秀平 wrote:
フランス語が解析できるocrソフトを探しています。以前omnipage pro direct を使っていましたが、新しく購入したmacbookには対応できないようでした。お手頃なソフトを教えていただければ助かります。Smarcel
知ってる限りでは、
Acrobat Pro (結構優秀です)
ReadIris for Mac 12
http://www.irislink.com/c2-1685-189/Readiris-12-for-Mac.aspx
僕は両方使っていますが、最初から PDF があるときは、そのまま簡単に埋め込めるので Acrobat 使うことが多い。ただ、世の中が Adobe と Apple と Google と Microsoft だけになっちゃうと嫌なので(笑)、ReadIris も使っています。ReadIris は細かく設定できるところがよい一方、やや不安定です(落ちたりする)。Acrobat Pro は、細かい設定はできませんが、その分、何も考えずにボタン押すだけでそれなりの結果を出してきます。
お子様ランチ様
早速のご返答ありがとうございました。Google Documents 、なかなか正確にフランス語も読み取ってくれました。ただ、その後の文書の処理の仕方がまだよくわかりません。しばらく試行錯誤が続きそうです。
秀平
takano さん
早速のご返答ありがとうございました。ただ、残念ながらAcrobat Proはぼくには高価でちょっと手が出ません。Omnipage は、かなりお手頃でした。ひき続き、貧しいなりの方策を探りたいと思います。
秀平
一点だけ修正。 Standard でも OCR 機能があるようです。 かつ、最新バージョンの呼称は Acrobat Xでした。
http://www.adobe.com/jp/products/acrobat/matrix.html
http://www.adobe.com/jp/products/acrobatstandard/buying-guide.displayTab2.html
まぁでも値段はあまり変わらないですが。
VueScanはどうでしょうか?
ほとんど使ったことがないのでよくわかりませんが、OCRも可能だったと思います。標準では英語にしか対応していなかったと記憶していますが、フランス語はプラグインをインストールすれば使えるのでは?
お子様ランチ さま
もう一点教えていただけますか。先ほども申し上げました通り、Google Documents で読み込んだ scan TIFと記されたファィル(?)の後の処理の仕方がまったくわかりません。Nisus Writer などで開けて、テキストに手を加えられればいいのですが、うまくゆきません。こうしたことは「Google 完全活用術」などの参考書で調べるとわかりますか。ITスキルにまったく疎いもので、この点も教えていただけると助かります。秀平
どういう状況か解りませんが、最初から書くと
ここで"PDFや画像ファイルからテキストをGoogleドキュメントに変換する"にチェックにアップロードします。
すると”今日変更されたアイテム”の下にアップロードしたファイル名( scan TIF)があると思います。
それをダブルクリックして書類を開いて、解析されたテキストを他のアプリケーションにコピー&ペーストするのが一番簡単だと思います。
※アッロードする時の注意点は、画像はTIFFだとダメだと思います。PDFか.jpg、.png、.gif ファイルであることが必要ですのでスキャンするときそのようにスキャナーを設定してください。
http://docs.google.com/support/bin/answer.py?answer=176692&hl=ja
お子様ランチ さま
たびたびご親切にありがとうございます。ご教示いただいた通りなのですが、その「コピー・アンド・ペースト」が、通常のようにできなくて困っています。コピーの範囲を確定しても、なんだかいつものようにはうまくいかないのです。やれやれです。秀平
”今年変更されたアイテム”のアップロードしたファイル名( scan TIF)を
control+クリック(コンテキストメニュー)でダウンロードを選択。
各ファイル形式のダウンロード方法を選択:でPDFを選択して、コピー&ペーストではどうでしょう?
※ちなみに私のところではコピー&ペーストができることを確認して書いてますが、それができないのは不思議です。
SafariでダメならFirefoxを使ってみるとか。。
このメッセージは次により編集されています:お子様ランチ.
お子様ランチ様
再三ごめんなさい。「各ファイル形式のダウンロード方法を選択:でPDFを選択して」この手順が具体的によくわからないせいか、どうなのか、Loading はできても、その後範囲の設定ができません。よって、コピーもできないのです。
どうすれば、後から手を加えられるテキストになってくれるのでしょうか。秀平
別の方法で試してください。
アップロードした”scan TIF”がまだMacの中に有りますよね。
それをダブルクリックするとプレビューが立ち上がります。
とにかくプレビューで”scan TIF”を開いてください。
それを別名保存で、フォーマットをJPEGに指定してファイル名”scan TIF2”として保存します。
そしてファイル容量が2MB以内ということを⌘キー+I(情報を見る)で確かめて、
多すぎたら品質スライダーで少し品質を落として2MB以内になるように保存します。
大丈夫ならアップロードします。
そしてコピペができるようなったか、確かめてください。
たぶんアップロードしたファイルが、GoogleドキュメントのOCRでテキスト化する様式に適合してないのが原因だとおもいます。
上の欄にも書きましたが、下に注意点をコピペしておきます。
※アッロードする時の注意点は、拡張子がTIFだとダメだということです。
アップロードファイルはPDFか.jpg、.png、.gif ファイルであることが必要ですのでスキャンするときそのようにスキャナーを設定してください。
http://docs.google.com/support/bin/answer.py?answer=176692&hl=ja
私も、Apple Safari 5.1 (7534.48.3) でも、Mozilla Thunderbird 6.0 (20110813) でも、うまく行きませんでした。
Google ドキュメントにアップロードしたファイルをブラウザ上で開いても(ダウンロードしても)、画像ファイルが埋め込まれているだけで、画像ファイルなので当然選択してテキストをコピペすることはできませんでした。
ハンガリー語と日本語で試しましたが全滅でした。
使用した元ファイルは、手っ取り早くブラウザで開いたページのスクリーンショットを撮ったものでしたが。{command-shift-+} で2〜3段階拡大した画面を撮影しました。
デフォルトのファイル形式は png ですが、jpeg と pdf でも試しましたがダメでした。(PDF はスクリーンショットを変換したものです。)比較のために、画像形式ではない、通常のテキスト埋め込み形式の PDF ファイルも作ってアップロードしてみましたが、これまた画像ファイルとして埋め込まれてしまっているようです。
アップロードされたファイルをよく調べると、画像ファイルの下に数文字、ないし数行程度文字化けしているテキストがありました。ギッシリ文字が詰まったページの画像の直下にゴミにしか見えない以下のような文字列がありました:
---------2 -----“ - 'r -
-
A HVI É_ . ... . . . W H M PÜ' . . . ..
別の文書(こちらは日本語)の場合は、画像ファイルの下にギッシリと文字化けしたもので埋まっておりました:
12:38 Ξϧϓε໊ๆɺച٫૽ಈɹΦʔετϦ Ξɺൃड͚ఫճ
݄ ࣌
ɹ Ξ ϧ ϓ ε ͷ ඒ ͠ ͍ ࢁ ʑ Λ Ή Φ ʔ ε τ Ϧ Ξ Ͱ ɺ ೋ ͭ ͷ ๆ ͕ ച Γ ʹ ग़ ͞ Ε ɺ ٞ Λ ৢ ͠ ͨ ɻ ࠃ Վ Ͱ ࣗ ͨ ͪ Λ ʮ ࢁ ͷ ࠃ ʯ ͱ ͏ ͨ ͏ Φ ʔ ε τ Ϧ Ξ ʹ ͱ ͬ ͯ ɺ ࢁ ࠃ ͷ ތ Γ ɻ ࠃ ຽ ͔ Β ൃ Λ ड ͚ ɺ ํ స Λ ༨ ّ ͳ ͘ ͞ Ε ͨ ɻ
■ ̎ ๆ ̍ ̏ ̌ ̌ ສ ԁ
ɹ Έ Θ ͨ Δ ۭ ͱ ৽ ͷ େ ͷ ؒ ʹ ɺ ઇ Λ · ͱ ͬ ͨ ݥ ͠ ͍ ؠ น ͕ ز ॏ ʹ ࿈ ͳ Δ ɻ ඪ ߴ ̏ ઍ ϝ ʔ τ ϧ ڃ ͷ Ξ ϧ ϓ ε ͷ ࢁ ʑ ͕ ࿈ ͳ Δ ɺ Φ ʔ ε τ Ϧ Ξ ೆ ෦ ͷ ౦ ν ϩ ϧ ํ ɻ ੈ ք த ͷ ొ ࢁ ٬ Λ ັ ྃ ͢ Δ ໊ ๆ ͕ ͍ ͘ ͭ ͋ Δ ɻ
これは、このまま文字化けが続きます。最初の例では元の文章が長かったにも関らず、あの数行で全部でした。
そこで、今後は思いきってファイルの表示サイズを拡大してみました。Jedit X Rev.2.30 (build 24470) (2011-08-09) 上で 250 % まで拡大したもののスクリーンショットを撮りました。
すると、見事に (?) 画像の直下に(改行コードが見事に取っ払われた)テキストが表示されていました。(上の画像の選択部分です。)
いま、手元にスキャナがない状態でしたので、スクリーンショットで実験しましたが、「テキストを選択できない」と困っている方の場合は、画像ファイルの下のテキストに気付いていないのではないかと思います。私もそれを見つけるのに苦労しました。普通の感覚だと、Google ドキュメントに変換された段階で、テキストに変換されたものが表示されると考えるので、最初に見えるのが画像なので、勘違いしてしまうのだと思います。
さらに、私の実験ではほとんどの場合画像の下に数文字のゴミが表示されるだけでしたので、そのような場合には、まさかそれがテキストに変換(しようと)した結果だとは誰も思いもよらないでしょう。
もちろん、スクリーンショットの解像度では OCR には向かないというのは承知しております。Mac OS X は、まだ 72 dpi なんですかね? それならば、250 % 表示にして単純計算で 180 dpi ということになります。最低でもこの程度の解像度がないと解析できないということなのかもしれません。
以前、スキャナで取り込んだテキストの画像があるので、それを使って実験してみようとも思ったのですが、見つかりません。見つかったら、また実験してみます。
--------------------
Apple MacBook Pro (17"/Intel Core i7/2.3 GHz/8 GB RAM/512 GB SSD/HR-AG)
Mac OS X 10.7 (11A511) [Lion]
当初よりスクロールは考えましたがスクロールなら少し注意を払うだけ気づくだろうから、”scan TIF”のTIFの文字が怪しくて、書いてます。
あと画像ならスキャナーでなくてもデジカメで撮影してもできますが、撮影方法で認識率は実験のように激変しますので、工夫がいるとおもいます。
フランス語が解析できるocrソフト