現在地

パーソナルなコンピュータの漢字事情 (第5回: 文字コード)


カテゴリー:

これまで表示や印字の見た目の話がメインでしたが、最後に文字コードの話をしてみたいと思います。

漢字ROMが最初に搭載された頃、パソコン上ではまだBASICが主流でしたが、まだ「文字」という扱いではありませんでした。JISコードを指定すればパターンとして表示できるというだけで、文字列として(変数に入れたり)扱うことはできませんでした。ワープロ等のソフトウェアは独自に処理していたものです。

使える文字もJIS第1水準の約3,000字(+非漢字)のみでした。足りない字については次のような方法で対処します。

  • 第1水準の文字で置き換える
    例えば私の姓の「淺」は第2水準なので、第1水準の「浅」を使っていました。
  • 外字(ユーザ定義文字)に定義する
    自分でフォントを作らなくてはいけないこと、互換性がなく他人とのやり取りに支障があること、使える字数が限られること、などの欠点があります。
  • (印刷なら)空白にしておいて手書きする

PC-9801シリーズ等ではオプションでJIS第2水準(約3,400字)まで使えるようになりました。

またBASICでも文字列としての扱いが可能になりました。
文字列としてASCII・カナと共に使うためには切り替えが必要になります。MS-DOS版ではないN88-BASIC(86)ではプリンタと同じコードだったと思います。BASICで「LPRINT」「LLIST」でプリンタ出力するときは何も考えなくてよく、システム側でも特に変換はしていなかったはずです。ISO-2022-JPと似ていますが切り替え方法がちがいます。また、いわゆる「半角カナ」やグラフィック文字とも共存可能でした。

MS-DOSやいわゆる「パソコン通信」の世界ではShift-JISが使われました。これも「半角カナ」との共存が可能でした。

他にUNIX系のシステムでは主にEUCが使われます。「半角カナ」も使用可能ですが、非対応のシステムがあったり、切り替えのシフトコードが必要なのであまり一般的ではありません。

これら3つはベースとなっている文字配列が共通なため、相互に容易に変換できます。
さらに最近ではUnicodeが広く用いられるようになっています。これは世界の文字を統一的に扱うものですが、JIS系とは文字の配列に規則性が無いため相互に変換する場合にはテーブルが不可欠になります。

使用可能な文字の種類を増やす試みもいろいろと行われました。

NECやIBMはJIS第2水準まででカバーできない文字にたいして使われていない領域に独自にコードを割り当てました。第2回で触れた「ユーザ定義文字」(外字)も同様に割り当てています。これらは当然のことながら他社システムとの間に互換性はありません。知らずにネットで使ってトラブルになる例も多かったようです。

これまでJISの第1水準・第2水準と書いていたものはJIS X 0208 (当初はJIS C 6226)で規定されているものですが、そこに含まれない文字を集めて「補助漢字」 JIS X 0212が制定されました。これには約5,800字の漢字が含まれています。
ただこれは普及度の高いShift-JISで使用できなかったためあまり使われなかったようです。

さらにJIS X 0208を置き換える(厳密には上位互換ではない)かたちでJIS X 0213も制定されました。これは第1・第2水準を引き継いだ上に第3水準(約1,200字)と第4水準(約2,400字)を追加したものです。
約3,600字の追加ですが、多くの人にとってはまず必要としないものばかりでしょう。NEC独自拡張の一部(丸つき数字など)が追認されているのが一番ありがたいのかもしれません。


コメントを追加

Plain text

  • HTMLタグは利用できません。
  • ウェブページアドレスとメールアドレスは、自動的にハイパーリンクに変換されます。
  • 行と段落は自動的に折り返されます。
※ コメントは原則公開です。個別のご相談などは「ご意見・ご要望」からお願いします。