韓国語文書→スキャン→PDF化→韓国語テキスト

Leopardの使い方とは直接関係ないので、気が引けるのですが……

昨秋買ったキャノン複合機にバンドルされていた読取革命LiteというのをOCRソフトとして使用していました。文書にもよりますがスキャン画像をPDFファイルにしてそれをテキスト化したほうが手間もかからず読取正解率もよいようです。


MacOSX用の韓国語OCRソフトは無いので、韓国語の文書も同様にPDFファイル→テキスト化できれば助かる、と確かめましたが、似たような形の日本語を組み合わせた変なテキスト化されるだけでダメです。


情報を調べると、かなり昔のものだと韓国語フォントを組み込むとうまく行くようにも解釈できますがAdobeReaderは最新の9.1.0で、プラグインにそのようなものは無いようです。

アドビユーザーフォーラムの該当フォーラムで情報を探しましたが無いのですが、ここらをお分かりになる方はいらっしゃいますか。

投稿日 2009/03/20 00:30

返信
返信: 10

2009/03/20 05:21 harubang への返信

harubang wrote:



MacOSX用の韓国語OCRソフトは無い


いや、ありますよ。ひとつは、


ReadIris Pro Asian

http://www.irislink.com/c2-1538-189/Readiris-for-Mac---OCR-Software.aspx


もう一つの選択肢は、

Adobe Acrobat

http://www.adobe.com/jp/products/acrobat/matrix.html


です。前者は$200位で、送ってもらうしかないのですが、送料は僕の時は $15 くらいでした。後者は構成によりいろんなバージョンがありますので調べて下さい。


あまり韓国語のスキャンはしたことないのですが、日本語・中国語などだと、前者の方が認識は優秀、また専用ソフトなので OCR らしい機能(学習とか、レイアウトボックスの指定しなおしとか)は充実、ただ、いかにも基本設計が古そうな😝ソフトで、使い勝手にも癖があり、よく落ちる。というとこらへんで試行錯誤が必要です。また、僕の環境では問題ないのですが、客先(Tiger + 初期Mac Pro) で(ドイツ語でしたが)うまく認識できない、というトラブルがありました。


例えば、yahoo! korea から適当にクリックして入ったサイト


http://www.hankyung.com/news/app/newsview.php?aid=2009031799777


の第一パラグラフを適当に拡大してスクリーンキャプチャし、そのままそれぞれで OCR をかけたら結果は両者同じで



이시영은 17일 방송되는 KBS ’상상플러스’에 출연 해 드라마 ’꽃보다 남자(이하 꽃남)’ 오디션에 합격하 기 위해 무릎을 꿇었던 사연을 털어놨다



となりました。ま、印刷のかすれもないし、レイアウトもないですから OCR の条件としては良過ぎるわけですが。今ここに両方ともインストールされてますから、ネット上にどこか画像をアップロードしてくれたらテストしてあげてもいいですよ。こちらで使っているのは、ReadIris 11 Pro Asian とAcrobat Pro 9 です。


僕としては、OS X の OCR 市場はとても貧相なので、ReadIris に少しでも頑張ってほしい、とは思っています。ということで、上記の使い勝手ということもあり、必要な場合は ReadIris を使っています。


Message was edited by: takano

2009/03/20 05:22 harubang への返信

하르방 さんによる書き込み:



MacOSX用の韓国語OCRソフトは無いので、


 こんなのが見つかりましたが:「Readiris Pro 11 Mac Asian - OCR Software」。


 実力の程はわかりませんが、Mac OS X 版もあります。(Windows 版もあります。)149 € (≒20,000 ¥) しますが...。あれ、それとも 498 € (≒65,000 ¥)? なんか、わかりにくいなぁ、このページ...。


--------------------

Apple 17" MacBook Pro (Intel Core 2 Duo T7600/2.33 GHz/3 GB RAM/500 GB HDD)

Mac OS X 10.5.6 (Build 9G55) [Leopard] ?

2009/03/20 21:42 takano への返信

takanoさん、しい坊さん、情報ありがとうございます。

漢字Talk時代に韓国製OCRソフトが存在していたのは知っていましたが、ReadIris Pro Asianのことは全く知りませんでした。下の作業を納得が行き迄やってみてどうしてもダメなら、別な選択肢と共に導入を検討します。


出来ればAdobeReaderだけで何とかならないか、と実験してみました。

というのも日本語の文章の場合ならOCRソフトがなくてもAdobeReaderだけで結構テキスト化できるのに、英語等に比べれば文字数は多いものの日本語に比べれば圧倒的に文字数が少ないハングルで何故出来ないのかが不思議で……


日本語システムと別アカウントの韓国語システムで次の作業を行いました。

 なおテキストエディットとAdobeReaderは夫々の言語システム用のものを利用

1・テキストエディットで韓国語の文章を12Pで作成

2・同文章をPDFで保存

3・PDFからコピー&ペーストでハングル部分をテキストエディットに戻す。

元の文章の作成がどちらのシステムでも、段階3が日本語システムでは全文字が文字化け(全て見た事の無い同じ記号)し、段階3が韓国語システムだと正解率100%でした。

両者の違いを調べると、AdobeReaderのファイル-プロパティ-フォント-文書属性が韓国語システムだとAppleMyungjoとなっているのに対し、日本語システムはMSゴシックなので、それで文字化けを起こすのかもしれません。


上記の結果から、テキストエディットで韓国語の文章を作成の替わりに、韓国語の文章をスキャナーで取り込んでPDFで保存すれば何とかなるかと色々やってみたのですが、どういうわけか韓国語システムのAdobeReaderの動作が日本語システムのように夫々の文字を選択できるようにならず、今のところうまく行きません。

もうちょっと粘って試行錯誤してみるつもりです。

2009/03/21 00:14 harubang への返信

harubang wrote:


出来ればAdobeReaderだけで何とかならないか、と実験してみました。

というのも日本語の文章の場合ならOCRソフトがなくてもAdobeReaderだけで結構テキスト化できるのに、英語等に比べれば文字数は多いものの日本語に比べれば圧倒的に文字数が少ないハングルで何故出来ないのかが不思議で……



Reader 9 に OCR機能がない、ということはないのでしょうか? こちらではインストールしてないので判りませんが、少なくとも上に挙げたマトリクスでは、Reader にはその機能はない、ということになっています(上位バージョンを買ってね、ということと理解しました)。


harubang wrote:


日本語システムと別アカウントの韓国語システムで次の作業を行いました。

 なおテキストエディットとAdobeReaderは夫々の言語システム用のものを利用

1・テキストエディットで韓国語の文章を12Pで作成

2・同文章をPDFで保存

3・PDFからコピー&ペーストでハングル部分をテキストエディットに戻す。

元の文章の作成がどちらのシステムでも、段階3が日本語システムでは全文字が文字化け(全て見た事の無い同じ記号)し、段階3が韓国語システムだと正解率100%でした。

両者の違いを調べると、AdobeReaderのファイル-プロパティ-フォント-文書属性が韓国語システムだとAppleMyungjoとなっているのに対し、日本語システムはMSゴシックなので、それで文字化けを起こすのかもしれません。



よくわからなかったのですが、上記の 1-2-3 のプロセスは、テキストをPDFに埋め込んで、それを Adobe Reader でテキストとしてコピーする、という作業でしょうか? だとすれば、日本語のシステムでも普通に韓国語のテキストとして埋め込めるのが普通だと思います。


harubang wrote:


上記の結果から、テキストエディットで韓国語の文章を作成の替わりに、韓国語の文章をスキャナーで取り込んでPDFで保存すれば何とかなるかと色々やってみたのですが、どういうわけか韓国語システムのAdobeReaderの動作が日本語システムのように夫々の文字を選択できるようにならず、今のところうまく行きません。

もうちょっと粘って試行錯誤してみるつもりです。


そのプロセスの中に、画像を、韓国語のテキストとして認識・変換するエンジンが存在しないのでは?

2009/03/21 05:43 takano への返信

>Reader9 にOCR機能がない、ということはないのでしょうか?


紹介していただいたAdobeサイトの比較表では、「OCR機能で紙の文書をスキャンしてPDFに変換」項目はAcrobat9は可能でReader9は不可となっているのに、何か錯覚しているのかもしれませんが、私の環境ではReader9でも日本語文書なら出来てしまうのです。

  Acrobat9の機能を確かめたいのですが、体験版はウインドウズだけなんですね。

上記したように日本語文書だと画像を日本語のテキストとして認識、変換する機能があるようなので韓国語システムなら韓国語文書の画像を韓国語のテキストとして認識、変換する機能があるのだろうと予想したのです。

現在苦戦中で、結論を出すには未だ時間が掛かるようです。

2009/03/21 05:56 harubang への返信

harubang さんによる書き込み:



  Acrobat9の機能を確かめたいのですが、体験版はウインドウズだけなんですね。



 「Adobe - Adobe Acrobat 9 無償体験版のご案内」のサイトの末尾に「インストールに関する注意事項および必要システム構成(Windowsのみ」と表記されていることから、そう誤解されたのだと思いますが、これは、「インストールに関する注意事項および必要システム構成」が Windows のみという意味だと思います。そのまま先に進めば、マック版がダウンロードできると思いますよ。


--------------------

Apple 17" MacBook Pro (Intel Core 2 Duo T7600/2.33 GHz/3 GB RAM/500 GB HDD)

Mac OS X 10.5.6 (Build 9G55) [Leopard]

2009/03/21 07:23 harubang への返信

harubang さんによる書き込み:


えっ、マック版もあるのかと思い最後迄行きましたが、ウインドウズ版のみです。


 あれ、そうですか!? 実は、私は Adobe Creative Suite 4 Master Collection を持っているので、Adobe Acrobat 9 Pro も持っており、再ダウンロードの必要はないのですが、念のために先ほどの書き込みをしたときにダウンロードしようとしてみました。で、それからずっとダウンロードリンクのメールを待っているのですが、未だに届かないのです (^"^;)。


 しかし、マック版がダウンロードできないなんて、おかしいですよねぇ...。


--------------------

Apple 17" MacBook Pro (Intel Core 2 Duo T7600/2.33 GHz/3 GB RAM/500 GB HDD)

Mac OS X 10.5.6 (Build 9G55) [Leopard]

2009/03/21 07:30 しい坊 への返信

しい坊 による書き込み:


 しかし、マック版がダウンロードできないなんて、おかしいですよねぇ...。


 失礼しました。よく読んだら「現時点では、Acrobat 9の体験版はWindows®版のみの提供となります」と書いてありました。以前はそんなことなかったはずなのに。変ですねぇ...。と言うか、Adobe にとって何が得になるのか、合理的な意味が理解できない...。


--------------------

Apple 17" MacBook Pro (Intel Core 2 Duo T7600/2.33 GHz/3 GB RAM/500 GB HDD)

Mac OS X 10.5.6 (Build 9G55) [Leopard]

2009/03/24 19:23 takano への返信

私の環境では日本語版Reader9に日本語OCR機能があると書きましたが、アドビに直接確認したところあり得ないと断言されたし、Reader9にOCR機能があるのではなくキャノン複合機のOCR機能を自動的?に利用するので恰もReader9の機能のように勘違いしたようです。

キャノン複合機に韓国語OCR機能が無い以上、韓国語システムで韓国語版Reader9を利用しても韓国語OCR機能が無いのは当然なのでしょう。


従って現時点での結論は

韓国語OCR機能が必要な場合はtakanoさん確認済の、OCRソフトReadIris Pro Asianか、Acrobat9の利用、またはOCRソフトの選択肢が多いWindows環境の利用でしよう。

このスレッドはシステム、またはAppleコミュニティチームによってロックされました。 問題解決の参考になる情報であれば、どの投稿にでも投票いただけます。またコミュニティで他の回答を検索することもできます。

韓国語文書→スキャン→PDF化→韓国語テキスト

Apple サポートコミュニティへようこそ
Apple ユーザ同士でお使いの製品について助け合うフォーラムです。Apple Account を使ってご参加ください。