フランス語が解析できるocrソフト
フランス語が解析できるocrソフトを探しています。以前omnipage pro direct を使っていましたが、新しく購入したmacbookには対応できないようでした。お手頃なソフトを教えていただければ助かります。Smarcel
MacBook, Mac OS X (10.4.11)
フランス語が解析できるocrソフトを探しています。以前omnipage pro direct を使っていましたが、新しく購入したmacbookには対応できないようでした。お手頃なソフトを教えていただければ助かります。Smarcel
MacBook, Mac OS X (10.4.11)
お子様ランチ. さんによる書き込み:
当初よりスクロールは考えましたがスクロールなら少し注意を払うだけ気づくだろうから、
上でも報告した通り、スクロールしても画像の下に2〜3行だけ以下のような文字列があっても
---------2 -----“ - 'r -
-
A HVI É_ . ... . . . W H M PÜ' . . . ..
これがテキストを解析した結果だとは普通誰も思わないでしょう。色々やった実験の中では(もう破棄してしまいましたが)たった1行だけ「900.8」みたいな数字だけが表示されていたのもありました。
お子様ランチ. さんによる書き込み:
失礼しました。
フランス語は認識しませんでした!
いや。フランス語もちゃんと認識しますよ (^^)。
これは、Apple Safari 5.1 (7534.48.3) で表示させたフランス語のページを Jedit X Rev.2.30 (build 24470) (2011-08-09) にリッチテキスト形式でコピペしたものを 300 % に拡大表示したもののスクリーンショットを撮ったものです。
この解像度であるならば、非常に奇麗にフランス語はテキスト化できるようです。
本文のフォントサイズは 15 ポイントなので、300 % 表示では単純計算で 45 ポイント相当になっています。解像度は 216 dpi でしょうか?
ドキュメントの言語をフランス語にするとフランス語どころか、日本語も認識しなくなるなんて…
お使いのサンプルは仏和辞典のようですが、OCR は1つの言語にしか対応してないと思います。(違っていたらごめんなさい。)読み取り言語を「フランス語」に指定したら、少なくとも日本語部分は判読できないでしょう(それでも OCR は日本語の文字を必死でフランス語の綴りとして解読しようとするので、文字化けの嵐となる...)。同様に読み取り言語を「日本語」にすれば、今度はフランス語の部分が解読できなくなってしまうはずです。
残念ながら現在の OCR はかつての MS-DOS のようなもので、MS-DOS は言語別に用意されてはいましたが、複数の言語を同時に扱うことはできませんでした。OCR も複数の言語の読み取りには対応するようになりつつありますが、複数の言語が混在しているテキストを解読するのはまだ無理のようですね。
あら、読めましたか、良かったです。でもファイルにより、解析できたりできなかったりじゃちょっと使えませんね…
それと手持ちのOCRは英語と日本語が混在でも解析しているようなので、当然gooleドキュメントで同じと思ってました。
さらに Google ドキュメントで実験してみました。
『創世記』の冒頭部分を「英語」・「ドイツ語」・「ラテン語」・「ハンガリー語」で併記してみました。全てラテン文字言語です。
解像度を高くしたためか、どの言語もほぼ正確に読み込めました。読み込みは「ハンガリー語」に指定しましたが、もう1度、今度は読み込み言語を「英語」にして試したところ、結果は全く同じになりました。
①、④、等の丸付き数字は Unicode で定義されているにも関らず、「CD」、「Q)」のように文字化けしています。②、③ は何にも変換されませんでした。
読み込み言語をハンガリー語にしていしたので、ハンガリー語の部分はほぼ正確ですが、英語などでは小文字で始まっている単語が結構大文字で始まったりしています。
ラテン文字同士の混在の場合には文字が同じせいか、言語に関らずほぼ読み取れるようです。小文字が大文字として認識されてしまうのは恐らくは誤認識の問題ではなく、辞書の問題かも知れません。
いずれにせよ、きちんと制限を理解して使えば、Google ドキュメントの OCR 機能は結構使い物になるのかも知れませんね。
お子様ランチ. さんによる書き込み:
あら、読めましたか、良かったです。でもファイルにより、解析できたりできなかったりじゃちょっと使えませんね…
解像度が 200 dpi 以上ならほぼ間違いなく Google ドキュメントで提供している言語ならば解析できるようです。スキャナを使えば、条件を設定できますから、なかなか使えるものだと感じました。ただし、別のソフトにテキストを移し替えて再編集する必要があります。単にテキストを抜き出すための機能と言えますかね。
結構後処理に手間が掛かりますが、いざという場合には強い味方になります。
それと手持ちのOCRは英語と日本語が混在でも解析しているようなので、当然gooleドキュメントで同じと思ってました。
日本で開発されていた OCR は、当初は「日本語モード」と「英語モード」を切り替えて使うようになっていたのですが、日本での需要があったので、日本語と英語は混在できるようにしたようです。ただし、最新の OCR は知りませんが、私が使っていた当時の日英混在読み取り可能の OCR は、日本語は Shift JIS のみ、アルファベットは Basic Latin のみしか認識しないようでした。
追加の実験結果です。
同じアルファベットでも、ラテン文字とキリル文字は少し系統が違います。そこで、ラテン文字(ラテン語とハンガリー語)とキリル文字(ロシア語)を混在させたテキストを作ってみました。
読み取り言語をハンガリー語と指定すると、
同じラテン文字のラテン語とハンガリー語は変換されましたが、ロシア語は全く解析されませんでした。と言うことは、この OCR はきちんと「ラテン文字ではない言語」をノイズとして排除する機能を持っていると言うことになります(意外と賢い)。
で、同じ、ラテン語・ハンガリー語・ロシア語混在のファイルを「ロシア語」として読み取らせてみました。
すると、今度はラテン語とハンガリー語の部分は一切解析されず、ロシア語の部分だけが解析されました。なかなか正確です。
ここまでやったんで、今後は日本語との混在の文書を作って実験してみました。
「ハンガリー語(ラテン文字)」・「ロシア語(キリル文字)」・「日本語」の混在文書です。「ハンガリー語」として読み込んでみました。
ハンガリー語の部分はきちんと解析されています。次の「14 TLMa Han 14 Han Bor:」は何なんでしょう? たぶん、キリル文字の一部の誤変換? 日本語は全く解析されていません。
次に「日本語」として読み込んでみました。
すると、ハンガリー語とロシア語の部分も解析されましたが、文字化けの嵐です。日本語は一応何とか読める程度には認識しているようですが、結構誤変換が多いようです。漢字は似た文字が大量にあるので判別が難しいのでしょうね。
次に、日本語だけを抽出して、それだけを日本語として読み取らせてみましたが、
解読の正答率に変化ありませんでした。いずれにせよ、ラテン文字やキリル文字の場合と違い、相当手を加えないと使い物にならないようですね。
フランス語が解析できるocrソフトを探しています。
PDF OCR Xでも、Language Packを導入することでフランス語を含めた他言語に対応するようなので試してみるといいかもしれません。
# 無料だと機能制限があるようですが、それほど高くもないので気に入ったら購入すればよいかと。
PDF OCR Xですが、ファイル名やパス(ファイルが保存されているフォルダ名)に日本語が含まれているとエラーが出て変換が出来ないみたいなのでご注意ください。
takano さんによる書き込み:
Acrobat Pro (結構優秀です)
今日、色々やった実験の勢いで Adobe Acrobat Pro 9.4.5 の OCR 機能を試してみました。実は、Acrobat の OCR 機能はほとんど使ったことがありませんでした。
Acrobat の場合も解析する言語を事前に指定しなければなりませんので、言語が混在していると難しくなります。以下のテキスト(今日の実験で使っていたものですね)を使って実験しました。
多言語サンプル-01.rtf
① At the first God made the heaven and the earth. And the earth was waste and without form; and it was dark on the face of the deep: and the Spirit of God was moving on the face of the waters. And God said, Let there be light: and there was light.
② Im Anfang schuf Gott die Himmel und die Erde. Und die Erde war wüst und leer, und Finsternis war über der Tiefe; und der Geist Gottes schwebte über den Wassern. Und Gott sprach: Es werde Licht! Und es wurde Licht.
③ In principio creauit Deus caelum et terram. Terra autem erat inanis et uacua et tenebrae super faciem abyssi et spiritus Dei ferebatur super aquas. Dixitque Deus fiat lux et facta est lux.
④ Kezdetben teremté Isten az eget és a földet. A föld pedig kietlen és puszta vala, és setétség vala a mélység színén, és az Isten Lelke lebeg vala a vizek felett. És monda Isten: Legyen világosság: és lőn világosság.
⑤ В начале сотворил Бог небо и землю. Земля же была безвидна и пуста, и тьма над бездною, и Дух Божий носился над водою. И сказал Бог: да будет свет. И стал свет.
⑥初めに、神は天地を創造された。地は混沌であって、闇が深淵の面にあり、神の霊が水の面を動いていた。神は言われた。「光あれ。」こうして、光があった。
これを一度 PDF 化したファイルから(そのままだと文字が埋め込まれてしまっていますので)一度 PNG ファイルに書き出し、それをさらに GraphicConverter で PDF 化し、その画像を保存した PDF ファイル上で OCR を走らせて解析させてみました。
①〜④がラテン文字(英語・独語・羅誤・洪語)、⑤がキリル文字(露語)、⑥が漢字仮名交じり文字(日本語)です。言語としては6言語、文字種としては3種類の文字が混在しています。
まず、言語設定を「日本語」にした結果が以下の通りです:
多言語サンプルー01 吋f
( At the first God made the heaven and the earth. And the earth was waste
and without form ラand it was dark on the face of the deep: and the Spirit of
God was moving on the face of the waters. And God saidラLet there be
light: and there was light
( 1m Anfang schuf Gott die Himmel und die Erde. Und die Erde war w t
und leerラund Finstemis w,紅白ber der Tiefe ラund der Geist Gottes schwebte
er den Wassem. Und Gott sprach: Es werde Licht! Und es wurde Licht
( 1n principio creauit Deus caelum et terram. Terra autem erat inanis et 同じ国
et tenebrae super faciem abyssi et spiritus Dei ferebatur super aquas
Dixitque Deus fiat lux et facta est lux
( Kezdetben teremt己1sten az eget 己s a f det. A 白ld pedig kietlen 己s puszta
valaラ己s set己ts己g vala a m己lys己g sziIltI1 ラ己s az 1sten Lelke lebeg vala a vizek
felet t. Es monda 1sten: Legyen világosság 己s 16n vil疊oss疊
( B Ha"laJIe co四OplIJI Eor He60 1I 3eM江町3eMJI5! )Ke 6bIJIa 6e3BlI,n:Ha 1I rrycTaラ
1I TbMa H明白羽田IO ラH 且yx EO)KIIフヘ HOClIJIC5! Ha且BO,n: OIO. H CKa3叩Eor
,n:a 6刊eT CBeT. H CTaJI CBeT
⑥初めに、神は天地を創造された。地は混沌であって、聞が深淵の面
にあり、神の霊が水の面を動いていた。神は言われた。I 光あ
れ。」こうして、光があった。
ー
,,,
ー
当然、文字化けしていますが、日本語部分は Google ドキュメントの解析よりも正確ですね。完全に解析された日本語の文章の下になぜ余計なゴミが付いているのかは謎です。
解析対象言語を「日本語」とした場合、一番文字化けが酷いのがキリル文字でした。ラテン文字は「Basic Latin」の部分はきちんと変換されているようですが、「Latin-1」以降の部分の文字は化けています。基本的には日本語は Shift JIS で解釈する設定になっているのかしら?
次に同じ画像の PDF ファイルを「ハンガリー語」として OCR で読み取った時の結果です(「フランス語」に設定した場合も基本はこれと同じになるはずです):
CD At the first God made the heaven and the earth. And the earth was waste
and without form; and it was dark on the face of the deep: and the Spirit of
God was moving on the face of the waters. And God said, Let there be
light: and there was light.
® Im Anfang schuf Gott die Himmel und die Erde. Und die Erde war wüst
und leer, und Finstemis war über der Tiefe; und der Geist Gottes schwebte
über den Wassem. Und Gott sprach: Es werde Licht! Und es wurde Licht.
@ In principio creauit Deus caelum et terram. Terra autem erat inanis et uacua
et tenebrae super faciem abyssi et spiritus Dei ferebatur super aquas.
Dixitque Deus fiat lux et facta est lux.
® Kezdetben teremté Isten az eget és a földet. A föld pedig kietlen és puszta
vala, és setétség vala a mélység színén, és az Isten Lelke lebeg vala a vizek ,
felett. Es monda Isten: Legyen világosság: és lőn világosság.
@ B Ha"laJIe COTBOplIJI Bor He60 II 3eMJIIO. 3eMJI5!)Ke 6bIJIa 6e3BlI,n:Ha II rrycTa,
II TbMa Ha,n: 6e3,n:HoIO, II ):(yx BO)KIIÍÍ HOClIJIC5! Ha,n: BO,n:OIO. li CKa3aJI Bor:
,n:a 6y,n:eT cBeT. li CTaJI cBeT.
@ M (XI) tc, t$ t i :J(tili {? ;\'lU ~ ~ n t~ o tili t i t.m yrg 'C' cb "':) '""c Ml iJ~?5I! rJlll o) oli
tc cb v), t$ o) ~ iJ~ J../( o) oli {? IfJ Í;} '"( Í;) t~ o *$ ti § . .b n t~ o I Jfé cb
no J ~ 7 l '"(, JféiJ~ cb "':) t~ o
- 1 /1 -
やはりキリル文字と日本語は文字化けしてしまっていますが、ハンガリー語以外のラテン文字言語もほぼ完璧に解釈されています。
Acrobat も Google ドキュメントもどちらもラテン文字言語でも解析は完璧ではありませんが、どちらも十分使い物になるレベルだと実感しました。ただし、細かく比較すると、Acrobat の OCR の方が Google ドキュメントの OCR よりもより正確なようです。(価格の差ですかね?)
私の結論は、
① Google ドキュメントも Acrobat も OCR の解析能力はほぼ互角(Acrobat の方が少し勝っている)で、十分実用に堪える。
② Google ドキュメントの最大の魅力は「無料」であること。
③ Acrobat の最大の欠点は有料、それも結構高価であること。(学割で Adobe Creative Suite 5.5 Master Collection 等が手に入れられる環境ならば、オマケで付いてくるので、十分コストパフォーマンスが成立する。)
④ Google ドキュメントの最大の欠点は工程が煩雑であること。
⑤ Acrobat の長所は、工程が比較的シンプルであること。
でした。よって、
① 資金的に余裕があるか、すでに Acrobat を所有しているならば、Acrobat が使える。
② 当面有料の市販ソフトは経済的に厳しいのであれば、無料の Google ドキュメントの機能を利用する。
と言うことになりましょうか。
どちらの OCR も市販の他の OCR 専用ソフトの解析能力とほとんど変らないように感じました。ただし、市販の専用ソフトの場合は、レイアウトの解析等の機能が充実しており、かつ解析した文章の編集機能が便利なことでしょうか?
よって、
③ 経済的に十分余裕があり、かつ、OCR を頻繁に利用するのであれば、専用の OCR ソフトを使うべき
ということでしょうね。
将来的に Unicode に完全対応したグリフ解析エンジンが完成すれば、多言語混在(混植)テキストの OCR もより完璧になるのだとは思います。
お子様ランチ. さんによる書き込み:
外していたらすみませんが、スキャンはイメージキャプチャでやっていると思います。
でしたら、フォーマットでJPEGを選ぶだけだと思います。
ちょっと素人の質問で申し訳ないのですが、私はテキストをスキャナで取り込む時には、できるだけ文字がすっきりと、奇麗に読めるようにしたいと思っております。(仮に後から OCR 経由でテキストファイル化するにしても、元の画像ファイルは読みやすいものにしたいと感じます。)
JPEG は直線や図形等の線描画、つまり文字のようなものの場合には輪郭がぼやけるという性質があったと思います。PNG は逆に輪郭に強いと聞いています。実際、書籍等の画像は JPEG だとぼやけているのが、PNG だと奇麗に読み取れます。素人考えでは OCR だって輪郭がはっきりしない文字は認識しづらいのではないかと想像します。(もしかすると OCR は輪郭を見ているわけではないのかも知れませんが...。)
お子様ランチ. さんは PNG よりも JPEG をお勧めのようにお見受けいたしました。JPEG の場合は上のような問題はないのでしょうか?
なお、私の場合ですが、スキャナで取り込む時には、後々の作業も考えて TIFF で読み取っています。文字を挿入したりする場合には、Adobe Photoshop CS5 を使います。(レイヤーが使えると便利なので。)最終的に感染したものを PSD ファイルで保存し、さらにそれから必要に応じて PNG や JPEG のファイルに書き出したりしています。(どうもマスターファイルを JPEG で作ってしまうのは非可逆圧縮ということもあり、なんとなく抵抗があるんですよね。←だから、iTunes で CD を変換する時も Apple Lossless を使っています。どうせそんな違いを聞き分ける聴力なんて持ってるはずはないんですけどね...。)
THAAD さんによる書き込み:
VueScanはどうでしょうか?
ちょっとネットで調べて、デモ版をダウンロードしてみました。ところが、どこをどう探しても OCR の機能が見つかりません。「Adding OCR Languages」には「VueScan has built-in Optical Character Recognition (OCR) for English」と書いてあります。しかし「OCR in Vuescan」辺りを読むと、VueScan で OCR 機能を使うには、他の OCR ソフトと連携させるといったようなことが書いてあるようです。
「Adding OCR Languages」には色々な言語設定ファイルが存在するようですが、これは要するに、これらを使えば、解析がより正確になるよということらしく、恐らく辞書が入っているだけなのでしょうね。デフォルトの機能だけでもある程度の精度でラテン文字を使う言語は解析できるような気がします。
TIFF で読み取っています
ずっと書いてますが、googleドキュメントではtiffはサポートしてないです。根本的にここが問題でgoogleドキュメントで解析しない問題が起こっていると思ってます。ばっさりtiffは却下です。
PNG よりも JPEG をお勧めのようにお見受けいたしました。JPEG の場合は上のような問題はないのでしょうか?
知りません。けどプレビューでは、スキャンモードにテキストという項目もあり、そういう簡単なモードを選ぶようにしてます。
通常は手持ちのOCRソフトで、透明テキストPDFを作成しているだけです。難しいことは考えてないです。
ちょっとネットで調べて、デモ版をダウンロードしてみました。ところが、どこをどう探しても OCR の機能が見つかりません。「Adding OCR Languages」には「VueScan has built-in Optical Character Recognition (OCR) for English」と書いてあります。しかし「OCR in Vuescan」辺りを読むと、VueScan で OCR 機能を使うには、他の OCR ソフトと連携させるといったようなことが書いてあるようです。
Adding OCR Languagesのocr_ja.bin等の言語ファイルを、/Users/Sharedフォルダ内に置いて、VueScanを起動して下さい。
ウインドウ左下にプレビュー、スキャン、ガイドとボタンがあり、その隣に「項目を多く」というボタンがある場合は、それをクリックして詳細設定が出来るようにして下さい。
そして、スキャンする原稿を300dpi以上でプレビューするか、スキャンしてから、編集メニュー内の「OCR読み取り結果のコピー」を選択して下さい。
あとは、テキストエディット等にそれをペーストすれば、OKです。
上手く読み取れない場合、「出力」項目の中の「OCR読み取り結果 ファイル」にチェックを入れると、「OCR読み取り結果:言語」がその下に表示されますので、変換したい言語を選んで下さい。
※ ここで選択する言語が表示されない場合、Adding OCR Languagesのファイルの置き場所が間違っています。
追記
なお、日本語のOCRは使い物にならないレベルです。
フランス語が解析できるocrソフト