スポンサーリンク

自炊PDFを文字認識(OCR)でテキスト抽出付与するフリーソフト「かんたんPDFダイエット」


スキャンで作成したPDFに対して,文字認識で自動的にテキストを付与してくれるフリーソフト「かんたんPDFダイエット」。

PDF内を検索可能になるし,文章や単語をコピペもできる。


OCRソフトは,買うと数千円〜数万円する。

しかしこの「かんたんPDFダイエット」は無料だし,

MS OfficeがインストールされていないWindowsマシンでも問題なく動くので,非常にありがたい。

評判と参考資料

論文コレクター必見!WindowsでPDFを全文検索する方法 | Chem-Station (ケムステ)
http://www.chem-station.com/blog/2014...

  • 自炊書籍や古い論文など、画像をスキャンしたままPDFになっているもの(テキスト情報が含まれないPDF)は、そのままでは検索の対象にはなりません。 こういうものには光学文字認識(OCR)処理、つまり画像認識によってテキスト情報を抽出し、PDFを文字検索可能な形に変える処理が必要
  • 日本語対応しつつ無料で認識精度も良い方法となると、自炊PDF作成ソフト「かんたんPDFダイエット」の透明テキストPDF作成機能を使う方法が、Windows環境での最も簡単な方法


OCRにより透明テキストつきPDFを作成可能になった「かんたん PDF ダイエット」 - 窓の杜
http://www.forest.impress.co.jp/docs/...

  • 「かんたん PDF ダイエット」は、Windows XP/7/8に対応するフリーソフト


software/PDFDietEasy/PDF2ClearText - Windows Phone, Windows 8 Store アプリ by Smart-PDA.net
http://smart-pda.net/software/PDFDiet...

  • インストール方法。SharePointとサービスパックをMSのサイトから落として,無料で利用可能


透明テキストPDFが作れる「かんたんPDFダイエット」:浜村拓夫の世界
http://hamamuratakuo.blog61.fc2.com/b...

  • PDFの画像をOCRするとき、無償で提供されているMicrosoft SharePoint Designer 2007のOCR機能(Microsoft Office Document Imaging)を利用していました。 文字の認識率は、まあまあでした。

注意点

ただし,動作中はすごく重い。

ウィンドウ上でマウスポインタが滑らかに動かず,カクカクする。


そして,OCRの結果として生成されるテキストの精度はボチボチ。

無料なのでありがたいというレベルだ。

関連記事:

写真のアルバム(卒業アルバム含む)を自炊で電子化する。写真だけドキュメントスキャナに入れるか,コンビニのA3コピー機で。
http://computer-technology.hateblo.jp/entry/20140919/p3


自炊に役立つドキュメントスキャナ「ADS-2000」の長所・短所まとめ
http://computer-technology.hateblo.jp/entry/20140810/p1


PDFをフリーソフトで作成時に,ファイル中にページ間のリンクを埋め込む方法 (PDF-XChange Viewerのリンク機能を使用)
http://computer-technology.hateblo.jp/entry/20140104/p1


フリーソフトでPDFのページを逆順に並び替えて保存するには,PrimoPDFを使う(Windowsの場合)
http://computer-technology.hateblo.jp/entry/20140817/p2


iPadでepub文書を読むときに線を引く。無料アプリiBooksのブックマーク機能がおすすめ
http://computer-technology.hateblo.jp/entry/20140325/p2