ネタ元

Mac OS X でテキスト編集をしていると「テキストエンコーディング」という用語を目にします。「誰か説明してくれないかな〜」とずっと待っているのですが、誰もしてくれそうにないので自分で説明してみます。1)


テキストエンコーディングは、符号化文字集合と文字符号化方式の組み合わせです。

文字コード表

もちろんこの他にもたくさんあるのですが、すべて組み合わせが異なります。「同じ組み合わせで異なるテキストエンコーディング」というのはありません。

テキストデータ2) はかならずこのように「符号化文字集合」と「文字符号化方式」3) の2つが1セットになっています。ところが不思議なことに、その「1セット」を指す一般的な用語がないんですね 。そのため「1セットの組み合わせ」の考えがないまま説明をして混乱に陥っている例があちこちで見られます。4) 5)

「テキストエンコーディング」は一般的ではありませんが、あきらかに「1セットの組み合わせ」を指しているので、とても便利に使える用語です。今後はこのブログで常用することにします。

  1. 「テキストエンコーディング」はSafariやMailにもありますが、仕様が特殊らしいので無視します。ここではUnicodeのプレーンテキストをネイティブに扱えるエディタに限定して説明します。 []
  2. プレーンテキストの意味で言ってます。Word等のワープロデータとかは考察の対象外です。 []
  3. 「符号化文字集合」「文字符号化方式」というムダに難しい字面のこの用語については「 符号化文字集合と文字符号化方式の違い」がとても分かりやすいです。 []
  4. とくに日本版ウィキペディアの文字コード関連の記述はおそろしいほどの混乱に陥っています。ウィキで調べるときはかなり注意しないといけません。 []
  5. 文字集合 – Wikipedia ←このウィキの説明はすごいです! こういう素晴らしい項目があるので、混乱に陥っているとは一概にいえませんね。結局のところ「情報の取捨選択」という当たり前の姿勢が必要なだけなんですね。 []