UTF-8被重新规范,只能使用原来Unicode定义的区域,U+0000到U+10FFFF。根据规范,这些字节值将无法出现在合法UTF-8序列中
Unicode | UTF-8 | byte数 |
0000~007F | 0XXX XXXX | 1 |
0080~07FF | 110X XXXX 10XX XXXX | 2 |
0800~FFFF | 1110 XXXX 10XX XXXX 10XX XXXX | 3 |
1 0000~1F FFFF | 1111 0XXX 10XX XXXX 10XX XXXX 10XX XXXX | 4 |