OCRフリーソフトで,自炊PDFのテキスト抽出結果の精度を比較。日本語の認識は「PDF XChange Viewer」より「かんたんPDFダイエット」のほうがおすすめ
自炊(自前でスキャン)したPDFに,OCR処理をかけて文字認識し,
テキストを抽出・付与する。
このためのOCRフリーソフトとして,「かんたんPDFダイエット」とか「PDF XChange Viewer」がある。
自炊PDFを文字認識(OCR)でテキスト抽出付与するフリーソフト「かんたんPDFダイエット」
http://computer-technology.hateblo.jp/entry/20150201/p1
どちらを使ったほうが良いのだろうか?
実行結果を比較してみる。
無料ツールなので,あんまり精度は期待できないのだが・・・
実行結果の比較
ここでは,経済の書籍を使ってOCR処理をしてみた。
まず,かんたんPDFダイエットの透明テキスト機能で,文章を抽出した結果:
1 総 資 本 回 転 率 は 、 「総 資 本 (期 首 ・ 期 末 平 均 り ー売 L 高 ×100 」 で 求 め ら れ る 。 □ ] □ 2 総 資 本 !ijl 転 期 :出は 、 総 資 本 1司転 率 の 逆 数 で あ る 。 □ □ □ 3 総 資 本 !川転 率 が a 引川 ( 1 年 決 算 ) の 場 合 の 総 資 本 回 転 期 !掲は 、 n . 1 月 で あ る 。 (注 ) 計 算 に あ た っ て は 、 小 数 第 2 位 を 四 捨 五 人 し て い る 。 □ □ □ 4 売 上高 く純 ) 利 益 率 が 一 定 で あ る 場 合 、 総 資 本 回 転 率 を 高 め る と 総 資 本 く純 ) 利 益 率 は 低 下 す る 。 □ □ □ 5 変 動 費 と は 、 売 上 高 の 増 減 に 比 例 し て 発 生 す る 費 用 で あ る 。 □ □ □ 6 損 益 分 岐 点 比 率 は 、 損 益 分 岐 点 を 売 上高 で 除 し て 求 め ら れ る 。 □ □ □ 7 売 上 ,島成 長 率 は 、 前 期 売 L 高 を 当 期 売 L 高 で 除 し て 求 め ら れ る : □ □ □ 8 利 益 成 長 率 は 、 前 期 利 益 を 当 期 利 益 で 除 し て 求 め ら れ る 。 □ □ □ 9 配 当 率 (% ) は 、 配 当 金 (年 額 ) を 資 本 金 (期 首 ・ 期 末 平 均 ) で 除 し て 求 め ら れ る 。 □ □ □ 10 配 当 性 向 ( % ) は 、 配 当 金 (年 額 ) 十 当 期 く純 ) 利 益 ×100 で 求 め ら れ る a □ □ □ 11 配 当 水 準 が 一 定 の 場 合 、 配 当性 向 は 、 一 般 的 に 不 況 期 に は 低 く 、 好 況 期 に は 高 く な る 。
よけいなスペースが多いが,いちおう文章として成り立つような結果が得られる。
だがパッと見ただけで,細部まで正確に情報を読み取れるとは言い難いだろう。
「売上」が「売 L」みたいに誤記されており,ゆっくりと「ああ,そういう意味ね」と考えながら読めば,原文を推測はできる。
不必要に難しい漢字に誤認してはいない。
まあ,フリーソフトだし,おおまかな文章を抽出できているのだから御の字というところ。
それに対し,
PDF XChange ViewerのOCR機能で,「高精度」で時間をかけて解析した結果:
総蕗資本|匡li転誓宗誓は、 「総資木 (則百 ・ ÷売|`_高×lOOj で求め られるm 総資本凹転期間は、総資本凶転率の逆数であるo 総資本凹転率が硼脳(l年洸算)の腸合の総資本凹転期間は、几U彊 で・ある1,遁 (注藺) i書†算ご1こあフ`こつて1ま、 小薮第21i7二をl几I捨_とh工入している。 売上高(純)利益率がー定である場舎、総資本同転率を席めると総資 本(純)利益率は低下するc 変動贄とは、売上高の増減に比例して発生する贄用であるo 拍益分岐点比率は、損益分岐点を充上廟で際して求められるo フ牢1三 _し 高 成長率 は 、 前期う櫑三1lし`.高 を 饗養 期 ラl〔曼1 |二 譁璽j し て 求め ら れ る 利益成長率は、前期利益を当期利益で際して求められるc 配当率(%)は、配当金(年頌)を資本奄(期昔・期未平均)で険し て求められるn 配当†′|圭向 (t霊蕗fェ) は、 商已豊遁}圭金(年客1'正) ÷ 当則(純)利益×lOOで求められ るt蕗 配当水準がー定の場含、配瀕性向は、一般的に不況期には低〈、好況 】には高〈なるe
こりゃだめだ。
PDF Xchange Viewerだと,不必要に難しい漢字を当てはめようとして,
文章として成立しないような崩れた結果になってしまっている。
象形文字というか,アスキーアートというか。
とくに,漢字が連続して熟語になっている部分が,元の意味を判別不能になっている。
文末の句点「。」も認識できていないありさまだ。
ちなみに高精度だと時間がかかり,300ページの本が3時間ぐらいかかった。
上で見た結果の通り,PDF XChange Viewer は,OCRの精度の評判があまりよくない。
手に負えなくなるまで! PDF Xchange Viewer 日本語OCR
http://getoutofhand.blog.fc2.com/blog...
- 実際の性能は、今のところは精度の高いところと低いところでかなり差がある感じでした。 元のファイルの画質に大きく作用されるのだと思います
自炊したPDFデータをOCR機能でテキスト化したいという欲望:「PDF-XChange Viewer」編 - モバイル天下百品
http://itbizmobile.blog.fc2.com/blog-...
- スキャンしたPDFデータをOCR機能を使って、テキスト文章に変換してみよう。 無料で使える「PDF-XChange Viewer」を使ってみる
- 残念な結果となる。自炊したPDFデータをOCR解析してテキスト化したみたが、読めるもんじゃない。解析率60%って言った感じ
- 「PDF-XChange Viewer」は、自炊したPDFデータをOCR解析してテキスト化するのに向かない
あえてメリットを挙げるならば,PDF XChange Viewerは多言語でOCRを実行できるということ。
OCR実行時に,メインの言語を選ぶことができるようになっている。
日本語だけでいいならば,フリーソフトとしては「かんたんPDFダイエット」を使ったほうがいいだろう。
関連記事:
写真のアルバム(卒業アルバム含む)を自炊で電子化する。写真だけドキュメントスキャナに入れるか,コンビニのA3コピー機で。
http://computer-technology.hateblo.jp/entry/20140919/p3
お風呂でタブレットで読書には,普通のiPadと防水ケースの組み合わせがベスト
http://computer-technology.hateblo.jp/entry/20140817/p3
ハイパーリンクを保持してPDF変換する方法は,PrimoPDFではなくWord2007やOOo Writerで出力すればよい
http://computer-technology.hateblo.jp/entry/20150101/p3
Kingsoft Officeの問題点・デメリット・欠点。MS Officeと比較した場合の互換性など
http://computer-technology.hateblo.jp/entry/20140502/p1
Kindle版の日本語書籍を安く買い,Windows PC上で閲覧する方法
http://computer-technology.hateblo.jp/entry/20131209/p1