フランス語が解析できるocrソフト

フランス語が解析できるocrソフトを探しています。以前omnipage pro direct を使っていましたが、新しく購入したmacbookには対応できないようでした。お手頃なソフトを教えていただければ助かります。Smarcel

MacBook, Mac OS X (10.4.11)

投稿日 2011/08/31 22:08

返信
返信: 46

2011/09/02 21:59 お子様ランチ. への返信

お子様ランチさん、しい坊さん、粕谷さんをはじめ、大勢の方にご議論いただき、まことにありがとうございました。

お察しとは思いますが、皆さんのご議論の内容は、ぼくの理解からは遠いものでした。ですが、またいつか、こうしたご議論を役立てることのできる日も来ることと思います。結局この場で教えていただいたPDF OCR Xを使ってみました。ただ残念ながら、やはり読み取り能力が低く、読み取ったフランス語にあとからかなり手を加えなければなりませんでした。やはり、身銭を切って市販のソフトを買わなければならないかな、と今は思っています。本当にいろいろお世話になりました。秀平

2011/09/02 23:49 秀平 への返信

身銭を切って市販のソフトを買わなければならないかな、と今は思っています。


Acrobatは残念ながらWindows版しかないようですが、Readirisなら試用版がダウンロードできるようなのでとりあえず試してみてはいかがでしょうか?

Readiris 12 Pro Mac - Demo version

これで優位な差が見られない場合、フォントが識別しにくいものだったり画質に問題があるなど読み取り側の画像に問題があるのかもしれません。


あと、カラーより白黒、変にグラデーションがかかっているより新聞などのように2階調化している方が判別されやすいので一度画像処理ソフトで処理してから読み取るとうまく行く場合もあります。

# で、JPEGよりGIFで保存した方がへんなグラデーションもかからないし、ファイルサイズが小さくなります。

2011/09/03 02:05 お子様ランチ. への返信

お子様ランチ. さんによる書き込み:

TIFF で読み取っています


ずっと書いてますが、googleドキュメントではtiffはサポートしてないです。


誤解があるようです。上で述べたことは、私がスキャナでスキャンする時には汎用的な TIFF で保存していると述べたまでです。その後で OCR を使う必要がある場合には、その OCR が TIFF に対応していない場合には、それが対応する PNG であれ、JPEG であれ、他の形式であれ、変換してから作業します。

2011/09/03 02:26 しい坊 への返信

誤解は無いです。


上で述べたことは、私がスキャナでスキャンする時には汎用的な TIFF で保存していると述べたまでです。


そういうこだわりは、一件落着するまで我慢すべきだと思います。

なにせまだOCRを使う段階まできてないのに先のことを書いても何のヒントにも解決にもなりません。

本気でデータベースと考えているなら解決につながらない雑音はいらないと思いません?

2011/09/03 02:27 HAL への返信

HAL さんによる書き込み:


Readirisなら試用版がダウンロードできるようなのでとりあえず試してみてはいかがでしょうか?

Readiris 12 Pro Mac - Demo version


これ、非常に紛らわしいんですが、製品(ソフト)のデモ版のことじゃないようです。確かにサイトにはそう書いてあるのですが、実際には「ソフトをデモンストレーションしている Flash 動画のリンクを送る」というだけのようです (^^;)。


ちなみに2つあるデモ動画は同社のサイト上からもアクセスできます。「ソフトの試用版が欲しい」とクリックすると、メールアドレスが要求され、だいぶ時間が経ってから、忘れた頃に HTML メールが送信されてきますが、内容はサイトとほぼ同じ。メールには「Thank you for your interest in Readiris 12 Pro for Mac.↩You recently requested a flash demo about Readiris 12 Pro features.」と書いてくれちゃってます (^^;)。


要するに、ソフトの試用版を請求すると、試用版は提供されず、向こうはこちらのメールアドレスを手に入れ、今後は広告を送り付けることが可能になるというだけのようです...。なんだかなぁ...。まぁ、あるいは、何らかの事情があり、臨時に急遽デモ版の提供を中断しているだけなのかも知れませんが...。(例えば Mac OS X 10.7 Lion で不具合があるので、現在突貫工事で対応中とか...(^^;)?


私が使ったことがあるのはせいぜい数万円程度の OCR ソフトまでなので、10万円以上もするような世界的に法人ユースでは有名な某 OCR ソフトではどうなのかわかりませんが(私は懐疑的ですが)、私が使ったことがある OCR の市販ソフトと Acrobat および Google ドキュメントの解析精度はほぼ互角のように思えました。(上の方の実験報告の通りです。)専用ソフトは、レイアウトの読み込みに対応していることと(結構便利です)、後からの修正作業がやりやすいことでしょう。(私は未だに Acrobat での誤認識の訂正方法がわかりません (^^;)。)



で、JPEGよりGIFで保存した方がへんなグラデーションもかからないし、ファイルサイズが小さくなります。


ですよねぇ。

2011/09/03 02:57 粕谷 明 への返信

粕谷 明 さんによる書き込み:

ちょっとネットで調べて、デモ版をダウンロードしてみました。ところが、どこをどう探しても OCR の機能が見つかりません。「Adding OCR Languages」には「VueScan has built-in Optical Character Recognition (OCR) for English」と書いてあります。しかし「OCR in Vuescan」辺りを読むと、VueScan で OCR 機能を使うには、他の OCR ソフトと連携させるといったようなことが書いてあるようです。


Adding OCR Languagesのocr_ja.bin等の言語ファイルを、/Users/Sharedフォルダ内に置いて、VueScanを起動して下さい。


英語に関しては「ビルト・イン」だとされています。英語モードで OCR を機能させるには?


と言うか、私は、いま、スキャナが手元にないので(しばらくはスキャナの近くに行きません)、既存の画像ファイルから読み取る実験をしてみたいのですが、すでに保存されているファイルを使って OCR 機能は働かせられないのでしょうか? 以前使っていた(classic 環境が切り捨てられて使えなくなってしまった)OCR ソフト等では、既存の画像ファイルからの読み取りにも対応しておりました。VueScan でも画像を編集 (?) ウィンドウに表示させることまではできましたので、なんか OCR が使えそうな気もするのですが、


そして、スキャンする原稿を300dpi以上でプレビューするか、スキャンしてから、編集メニュー内の「OCR読み取り結果のコピー」を選択して下さい。


「OCR読み取り結果のコピー ⌘T」がグレイアウトしたままで選択できません。


上手く読み取れない場合、「出力」項目の中の「OCR読み取り結果 ファイル」にチェックを入れると、「OCR読み取り結果:言語」がその下に表示されますので、変換したい言語を選んで下さい。


そもそも、「出力」の項目に「OCR」という単語すら見当たりません。どこか別の場所を見てるんですかねぇ...。


ユーザがアップロードしたファイル

2011/09/03 03:04 秀平 への返信

秀平 さんによる書き込み:


お察しとは思いますが、皆さんのご議論の内容は、ぼくの理解からは遠いものでした。


おそらく、文量に驚いてちゃんと読まれていないだけだと思います (^^)。内容は単なる追試の報告だけです。要するに、


① Google ドキュメントも、Acrobat もどちらの OCR 機能も十分実用的である。

② 秀平 さんが Google ドキュメントでテキストが選択できないで苦労しているのは、単に画像の部分で文字列を選択しようとしているからではないのか? ファイルを下にスクロールして行くと、画像の下に解析されたテキストデータがあるはずなので、それを使ってみてください。


ということだけです。


画像ファイルの下に文字列は見当たりませんか? 上の私のコメントの添付した画像では、テキスト部分を選択した形のスクリーンショットを上げております。

2011/09/03 03:05 HAL への返信

2階調化している方が判別されやすいので一度画像処理ソフトで処理してから読み取るとうまく行く場合もあります。

プレビューやイメージキャプチャなどで、スキャンすると白黒2値にできます。

ユーザがアップロードしたファイル

保存はtiff、png, pdfです。


他にはシステム環境設定のスキャナードライバーでも多分できると思いますので、手間が省けそうです。

2011/09/03 03:16 しい坊 への返信

>> で、JPEGよりGIFで保存した方がへんなグラデーションもかからないし、ファイルサイズが小さくなります。

> ですよねぇ。


gif はライセンスの関係で使えないことも多いです。

png が使えるなら、png の方が、ライセンスの問題も無く、使い勝手がよいです。

2011/09/03 03:18 秀平 への返信

秀平 さんによる書き込み:


結局この場で教えていただいたPDF OCR Xを使ってみました。ただ残念ながら、やはり読み取り能力が低く、読み取ったフランス語にあとからかなり手を加えなければなりませんでした。やはり、身銭を切って市販のソフトを買わなければならないかな、と今は思っています。


専用ソフトを使わずとも Google ドキュメントの機能で十分なはずだと報告しました。


お手数ですが、ちょっと以下の実験をしてみてください。


まず、オリジナルのフランス語の文章です:


Un geste pour la planète : l'impression de cette information est-elle vraiment nécessaire ?

Malaise à la RATP après une expulsion de Roms

LEMONDE.FR | 01.09.11 | 20h26 • Mis à jour le 01.09.11 | 20h53


C'est une évacuation d'un camp de Roms qui nourrit la polémique. Vers 6 h 30, ce mercredi 31 août, des CRS débarquent dans le campement de Saint-Denis (Seine-Saint-Denis), près de l'hôpital Delafontaine, où sont installés 150 Bulgares et Roumains. Munis de gaz lacrymogènes, selon les associations, les forces de l'ordre détruisent les baraques et font sortir les familles. Motif : le tribunal de grande instance de Bobigny a délivré, le 18 juillet, une ordonnance d'expulsion de ce terrain, qui appartient à l'Etat. De telles évacuations ont lieu plusieurs fois par semaine dans le


上の文章を(OCR でテストするために)画像化したのが以下のファイルです:


ユーザがアップロードしたファイル


どうか、秀平さんもご自分で上のフランス語のファイルを使って実験しみてください。(ダウンロードできます。)



このファイルを Google ドキュメントにアップロードすると、以下のようになります:

ユーザがアップロードしたファイル

ブルーの部分が抽出されたテキスト部分で、選択してあります。ブルーの部分の上が画像の部分です。上の画像の部分はただの画像ですから、文字列を選択することはできませんが、下のブルーの部分はただのテキストですから、自由にコピペすることができます。その部分をコピペしたものが以下の部分です:

Un geste pour la planète : l'impression de cette information est-elle vraiment nécessaire ?
Malaise à la RATP après une expulsion de Roms
c'est une évacuation d'un camD de Roms nourrit la
on oun camp c1e noms qu1 no polémique. Vers 6 h 30, ce mercredi 31 août, des CRS débarquent dans le campement de Saint-Denis (Seine-Saint-Denis), près de l'hôpital Delafontaine, où sont installés 150 Bulgares et Roumains. Munis de gaz lacrymogènes, selon les associations, les forces de l'ordre détruisent les baraques et font sortir les familles. Motif : le tribunal de grande instance de Bobigny a délivré, le 18 juillet, une ordonnance d'expulsion de ce terrain, qui appartient à l'Etat. De telles évacuations ont lieu plusieurs fois par semaine dans le


一部グレーの日付の部分などが無視されていたりはしますが、基本的にはきちんと抽出されているように思われます。恐らく市販ソフトでもこれ以上の精度では解析できないのではないでしょうか?


秀平さん、いかがでしょうか? Google ドキュメントの精度ではやはり使い物になりませんか?

2011/09/03 03:23 はに への返信

はに さんによる書き込み:

HAL さんによる書き込み:


で、JPEGよりGIFで保存した方がへんなグラデーションもかからないし、ファイルサイズが小さくなります。

しい坊 による書き込み:


ですよねぇ。


gif はライセンスの関係で使えないことも多いです。

png が使えるなら、png の方が、ライセンスの問題も無く、使い勝手がよいです。


はい。そういうわけで私は PNG を常用しているわけです。(そう言えば、最近は本当に GIF を見かけなくなりましたねぇ...。)

2011/09/03 03:32 お子様ランチ. への返信

お子様ランチ. さんによる書き込み:


誤解は無いです。


問題は、


① お子様ランチ. さんはずっと、秀平さんがテキストを選択できないのは、Google の OCR 機能が対応している画像形式でアップロードしていないからだというお立場です。


② 私は、秀平さんがテキストを選択できないのは、Google ドキュメントで先に表示される画像ファイルの上でテキストを選択しようとしているからであって、画像の下にテキストはちゃんと存在するはずだ。(また、もしそれが文字化けのように見えるとしたら、それは画像ファイルの解像度が低過ぎるためだ)と考えています。


一番困った問題は、肝心の秀平さんから、我々2人のどちらに対しても(お礼を述べるだけで)我々の指摘したことに対する確認のご返事がないことです。つまり、今の所は何が本当の問題なのか誰にも判断が付かないということです。


ですから、私はわざわざ手間を掛けて、Google ドキュメントでフランス語の変換に問題がないことを実験して報告しました。テキストが抽出されている場所の画像も提供しました。


あとは、秀平さんからのご報告待ちです。「確かにそこにあった」とか、「そこにはやはり何もないようだ」とか。あるいは、お子様ランチ. さんの提案されている方法を試した場合、どうなったか...。そういうインターアクティヴなやりとりが質問者との間にないと、問題解決は不可能だと思います。


と言うわけで、ぜひ、私たちの質問にお答えください m(_ _)m!>秀平さん

2011/09/03 04:51 しい坊 への返信

しい坊さんをはじめ、はにさん、お子様ランチさん


たびたびお世話になっています、秀平です。しい坊さんからご教示を受けた通り、ぼくも試してみました。

同じ結果を得られて、今はほっとしています。ただ、Omnipage(これはたしか80 eurosほどでした)では便利なスペルチェック機能があったのが助かりました。Le Monde の記事の読み取りは、95点ぐらいですね。

しい坊さんからのお問い合わせですが、最初読み取ったものにコピー・アンド・ペーストができなかったのは、ひょっとしたらFireFoxを使っていたことも一因なのかもしれません(まったくなんの根拠もない意見ですが)。

で、ぼくのように手探りでパソコンを使っているものは、実は、自分が今どういう作業をしているのかを明確にわかっていないのです。ですから、しい坊さんのご質問に明確にお答えすることができません。作業を進めてい

るうちに、ああ、こういうことだったのか、とわかるようになるとは思いますが、正直言って今満足のゆくご返答はできません。

とにもかくにも、Googleドキュメントは使いこなせるようになりたいものです。

2011/09/03 05:13 しい坊 への返信

スキャナを繋がなければ、VueScanにOCRの項目は現れません。


ユーザがアップロードしたファイル


で、スキャナを繋いだ状態で、入力の項目の中のソースでTIFFやJPEGファイル等を選べば、OCR機能も使えるようです。

フランス語の読み取り精度は判りませんが、日本語は酷いです。

2011/09/03 05:42 秀平 への返信

秀平 さんによる書き込み:


しい坊さんからご教示を受けた通り、ぼくも試してみました。

同じ結果を得られて、今はほっとしています。


うまく行ったようで何よりです (^^)。もしうまく変換できない場合は、解像度が足りないのだと思います。


で、やっぱり、画像の上で文字列を選択しようとされていたのでしょうか (^^)?



Omnipage(これはたしか80 eurosほどでした)では便利なスペルチェック機能があったのが助かりました。


スペルチェッカーはフリーウェアでも結構色々あるはずです。例えば、こんなのも使えそうです:


Excalibur | LaTeX Spell Checker


こういうスペルチェッカーは OCR の画像解析の時にスペルチェックするものではなく、解析が終ったテキストに対して行なうものです。二重手間になるのは専用 OCR ソフトでないのでしかたがありませんね。


あと、これも参考になるかも?:


コンピュータと言語(多言語)



Le Monde の記事の読み取りは、95点ぐらいですね。


しかし、OCR の精度なんてそんなもんじゃ...?



しい坊さんからのお問い合わせですが、最初読み取ったものにコピー・アンド・ペーストができなかったのは、ひょっとしたらFireFoxを使っていたことも一因なのかもしれません(まったくなんの根拠もない意見ですが)。


先ほどのサンプルの画像ファイルを Thunderbird 上からGoogle ドキュメントにアップロードしてみましたが、全く同じ結果で、問題なくテキストが選択できました。


とにもかくにも、Googleドキュメントは使いこなせるようになりたいものです。


うまく読み取れなかった時にはファイルの解像度を上げてみましょう。あとスペルチェッカーが必用な場合には、フリーの汎用のものを利用しましょう (^^)!(汎用のスペルチェッカーとは、Word や InDesign、OmniPage、等のソフトに埋め込まれたスペルチェッカーではなく、どんなソフト上でもスペルチェックができるソフトのことです。)


ま、とりあえず、Google ドキュメントの OCR 機能が使えるようになったようで、何よりです (^^)♪

このスレッドはシステム、またはAppleコミュニティチームによってロックされました。 問題解決の参考になる情報であれば、どの投稿にでも投票いただけます。またコミュニティで他の回答を検索することもできます。

フランス語が解析できるocrソフト

Apple サポートコミュニティへようこそ
Apple ユーザ同士でお使いの製品について助け合うフォーラムです。Apple Account を使ってご参加ください。