スポンサーリンク

OpenOffice.org Writerで日本語HTMLファイルを読み込む際,文字コードや文字化けの問題を防ぐ方法

Excel/Wordオフィス製品のTipsまとめへ  PDF・epub・自炊まとめTOPへ


OpenOffice.orgの文書作成ソフトWriterで,HTMLファイルをインポート(読み込み)して開きたい場合がある。


たとえば,HTMLファイルから,ハイパーリンク付きのPDFをエクスポートしたい場合とか・・・。
(PrimoPDFだとハイパーリンクになるのはURL文字列だけなので)


で,WriterでHTMLファイルを開くと,日本語は文字化けする。

特許出願HTML文書の読み込み時の文字化けについて (トピック) • OpenOffice.org コミュニティーフォーラム
https://forum.openoffice.org/ja/forum...

  • オプション設定を一通りみてみても標準の読み込み時の文字コードを設定する箇所もなさそうに思われます。 Openofficeでは、文字コードを指定するヘッダ情報を追加しない限り、shift jisとしてhtml文書を読み込ませることはできないのでしょうか。


これは,HTMLソース内で文字コードを指定していない場合にも起こるが,

HTML5形式で文字コードを指定している場合にも起こる。


つまり,OOo WriterはHTML5記法を認識してくれないことがあるのだ。

<meta>−HTML5タグリファレンス
http://www.htmq.com/html5/meta.shtml

  • charset属性を使用すれば以下のように短くすることができます。 <meta charset="UTF-8">

↑この書き方はNGということになる。


もし,Writerで文字コードを正しく認識させたいならば,HTML4の記法を使う必要があるのだ。

下記のように。

文字のエンコードを指定する:HTMLタグ辞典 - HTMLタグボード
http://www.dspt.net/html_tag/001_data...

  • <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

このように書いたHTMLをWriterで開くと,正しく文字コードが認識され,文字化けを回避できる。

関連記事:

PDFをフリーソフトで作成時に,ファイル中にページ間のリンクを埋め込む方法 (PDF-XChange Viewerのリンク機能を使用)
http://computer-technology.hateblo.jp/entry/20140104/p1


画像を多数Wordに貼り付けてレポートを作る。デジカメ画像サイズを一括変更
http://computer-technology.hateblo.jp/entry/20130925/p2


OOo Calcで,空白セル参照時の値ゼロ「0」を強制的に非表示にする方法。セルの書式コードではなくIF文で対処
http://computer-technology.hateblo.jp/entry/20141115/p1


OpenOffice.org表計算「Calc」は,画像のトリミング・切抜きがExcelと比べ超不便。Draw経由でGUI操作可能に
http://computer-technology.hateblo.jp/entry/20150101/p1


OOo Calcで,日付情報のセル値をTEXT関数で文字列に自由整形・変換する方法。書式コードの書き方はセルの書式を流用
http://computer-technology.hateblo.jp/entry/20141115/p2


Excel/Wordオフィス製品のTipsまとめへ