気ままなタンス*プログラミングなどのノートブック

プログラミングやRPGツクール、DTM、VOCALOIDについてのんびり書きます。

【メモ】文字コード(Unicode)に関する記事のURL

最近、文字コード(主にUnicode)について調査している。

理由としては以下のとおり。

  • 文字コードについて曖昧なイメージしか持てていない
  • コーディング時に場当たり的な対応を実施する傾向がある

個人的に、文字コードについて非常にわかりやすかったURLをメモとして残しておく。

Dive into Python 第4章.文字列

文字列 - Dive Into Python 3 日本語版

  • Python3文字列シーケンス説明のとっかかり
  • UTF-8, UTF-16, UTF-32についてそれぞれの特徴が述べられている

文字コードの考え方から理解するUnicodeUTF-8の違い

文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して

上記記事を読んで

# coding: utf-8
# 「ああああ」というコードポイント(U+3042)を、
# それぞれsjisとutf-8という符号方式でエンコードした場合のバイト表現
hoge = "ああああ"
print(hoge.encode('sjis'))  # => b'\x82\xa0\x82\xa0\x82\xa0\x82\xa0'
print(hoge.encode('utf-8')) # => b'\xe3\x81\x82\xe3\x81\x82\xe3\x81\x82\xe3\x81\x82'