[改訂新版]プログラマのための文字コード技術入門 (WEB+DB PRESS plusシリーズ)

3.80
  • (1)
  • (2)
  • (2)
  • (0)
  • (0)
本棚登録 : 74
レビュー : 4
著者 :
amano225さん 新品を購入   読み終わった 

普段何気なく使っているShift_JISだとかUTF-8とかの文字コード。そろそろその中身について調べてみようかと思って読んでみたら、想像以上に複雑だった。
所詮、自分は文字コードについてはASCIIコードを知ってるぐらいの知識しかない自分には難しかった。
文字コードについて様々な視点から書かれてあって、よくこれだけまとめれたものだと思った。GLとかGRとか初めて聞く用語があちこちででてきたけど、文字コードを語る上では知らないといけない知識なのだろうなと思った。制御文字について、CL領域はともかく、CR領域というのがよく分からなかった。CR領域って必要なのか? CLだけじゃダメな理由がよく分からなかった(実際、Shift_JISについてはCR領域についても図形文字領域として利用しているらしい)
半角の円記号(¥)とバックスラッシュ(\)の問題については、文字コードの問題における一番の問題だと思う。この本を読んでみても、この問題についてはもうどうしようもなさそう(全角で「\n」とするという思考実験について書かれてあったけど、現実的ではないと書かれてあった)。
SHIFT_JISの半角カタカナについて、見た目上の制約はないので、フォントが全角カタカナのように表示してしまっても特に問題ないらしい。
ちょっと面白かったのが、幽霊漢字という文字について。JIS基本漢字に定められている典拠不明の文字だそうなのだけど、制定が1978年って、作った人が亡くなって分からなくなったとかなのだろうか。
アイヌ語というのは全然知らんかったので、いろいろ知ることが多かった。セ゜(セ゚)とか小文字のク(ㇰ)なんて文字があるらしい。どういうふうに読むのだろう。
後、文字コードというのは、順番に文字に番号をあてはめてるだけだと思ってたし、大きくは間違ってないと思うけど、文字コードの計算の話がでてきて驚いた。UTF-8では符号位置がどのようなバイト位置になるかを計算で求めるらしい。本当、思ったより複雑だ。
プログラミングの内部処理についてもJavaとRubyについて解説してあり、内部でいろいろ複雑なことをしてるのかということが分かった。確かに、2バイト以上の文字を一文字と分かるし、そりゃそうか。
海外(主に東アジア)で使われる文字コードについても書かれてあって、面白かったのが北朝鮮のKPS9566について。なんと、歴代指導者の名前(金日成、金正日)がその順番通りに句点位置が割り当てられているらしい(なので、番号が重複している)。このこだわりは面白い。
後、右から左に書く制御文字(RLO)を使って、実際はexeファイルなのに、表示されるファイル名は「foo_exe.txt」とまるでテキストファイルのような見た目にできるという方法を知って驚いた(実際やってみたらできた)。それより、ファイル名にUNICODE制御文字を挿入できるということを初めて知った(右クリックでできた)。他にどんなことができるのかまた調べてみたいと思う。

レビュー投稿日
2020年11月3日
読了日
2020年11月3日
本棚登録日
2020年11月3日
0
ツイートする
このエントリーをはてなブックマークに追加

『[改訂新版]プログラマのための文字コード...』のレビューをもっとみる

『[改訂新版]プログラマのための文字コード技術入門 (WEB+DB PRESS plusシリーズ)』のレビューへのコメント

まだコメントはありません。

コメントをする場合は、ログインしてください。

『[改訂新版]プログラマのための文字コード技術入門 (WEB+DB PRESS plusシリーズ)』にamano225さんがつけたタグ

ツイートする