UTF-8被重新规范,只能使用原来Unicode定义的区域,U+0000到U+10FFFF。根据规范,这些字节值将无法出现在合法UTF-8序列中

Unicode UTF-8 byte数
0000~007F 0XXX XXXX 1
0080~07FF

110X XXXX 10XX XXXX

2
0800~FFFF 1110 XXXX 10XX XXXX 10XX XXXX 3
1 0000~1F FFFF 1111 0XXX 10XX XXXX 10XX XXXX 10XX XXXX  4