Tag: bash sed analog

Analogでの検索語句の文字化け解消

  • 2014-03-02 〜

10年ほど前のレンタルサーバーをまだ利用しています。Webのアクセス解析(集計)には、Analogが利用されていますが、集計項目のタイトルは日本語で正常ですが、検索語句が文字化けします。

Analogの集計結果が表示されたら、その内容(HTML)をファイルに保存します。今回はブラウザはFirefox。2014年2月1日から28日を集計して名前を201402.htmとして保存しました。シェル(bash)で次の様にすると、文字コードがUTF-8となりますが、文字化けしている部分だけの異常が解消されるような処理になるようです。

sed -e "4s/EUC-JP/UTF-8/g" 201402.htm  | nkf -w > 201402_utf8.htm

sedで置換するのは、4行目の次のmetaタグ部分の文字コード指定を置換するためです。

<meta http-equiv="Content-Type" content="text/html; charset=EUC-JP">