亚洲天堂无码色下载,国产美女一级a爱视频免费看

基本知識
字節(jié)和字符的區(qū)別
Big Endian和Little Endian
UCS-2和UCS-4
UTF-16和UTF-32
UTF-16
UTF-32
UTF-8

基本知識
介紹Unicode之前，首先要講解一些基礎知識。雖然跟Unicode沒有直接的關系，但想弄明白Unicode，沒這些還真不行。
字節(jié)和字符的區(qū)別
咦，字節(jié)和字符能有什么區(qū)別??？不都是一樣的嗎？完全正確，但只是在古老的DOS時代。當Unicode出現(xiàn)后，字節(jié)和字符就不一樣了。
字節(jié)（octet）是一個八位的存儲單元，取值范圍一定是0～255。而字符（character，或者word）為語言意義上的符號，范圍就不一定了。例如在UCS-2中定義的字符范圍為0～65535，它的一個字符占用兩個字節(jié)。
Big Endian和Little Endian
上面提到了一個字符可能占用多個字節(jié)，那么這多個字節(jié)在計算機中如何存儲呢？比如字符0xabcd，它的存儲格式到底是 AB CD，還是 CD AB 呢？
實際上兩者都有可能，并分別有不同的名字。如果存儲為 AB CD，則稱為Big Endian；如果存儲為 CD AB，則稱為Little Endian。
具體來說，以下這種存儲格式為Big Endian，因為值(0xabcd)的高位(0xab)存儲在前面：
地址
值
0x00000000
AB
0x00000001
CD
相反，以下這種存儲格式為Little Endian：
地址
值
0x00000000
CD
0x00000001
AB
UCS-2和UCS-4
Unicode是為整合全世界的所有語言文字而誕生的。任何文字在Unicode中都對應一個值，這個值稱為代碼點（code point）。代碼點的值通常寫成 U ABCD 的格式。而文字和代碼點之間的對應關系就是UCS-2（Universal Character Set coded in 2 octets）。顧名思義，UCS-2是用兩個字節(jié)來表示代碼點，其取值范圍為 U 0000～U FFFF。
為了能表示更多的文字，人們又提出了UCS-4，即用四個字節(jié)表示代碼點。它的范圍為 U 00000000～U 7FFFFFFF，其中 U 00000000～U 0000FFFF和UCS-2是一樣的。
要注意，UCS-2和UCS-4只規(guī)定了代碼點和文字之間的對應關系，并沒有規(guī)定代碼點在計算機中如何存儲。規(guī)定存儲方式的稱為UTF（Unicode Transformation Format），其中應用較多的就是UTF-16和UTF-8了。
UTF-16和UTF-32
UTF-16
UTF-16由RFC2781規(guī)定，它使用兩個字節(jié)來表示一個代碼點。
不難猜到，UTF-16是完全對應于UCS-2的，即把UCS-2規(guī)定的代碼點通過Big Endian或Little Endian方式直接保存下來。UTF-16包括三種：UTF-16，UTF-16BE（Big Endian），UTF-16LE（Little Endian）。
UTF-16BE和UTF-16LE不難理解，而UTF-16就需要通過在文件開頭以名為BOM（Byte Order Mark）的字符來表明文件是Big Endian還是Little Endian。BOM為U FEFF這個字符。
其實BOM是個小聰明的想法。由于UCS-2沒有定義U FFFE，因此只要出現(xiàn) FF FE 或者 FE FF 這樣的字節(jié)序列，就可以認為它是U FEFF，并且可以判斷出是Big Endian還是Little Endian。
舉個例子?！癆BC”這三個字符用各種方式編碼后的結果如下：
UTF-16BE
00 41 00 42 00 43
UTF-16LE
41 00 42 00 43 00
UTF-16(Big Endian)
FE FF 00 41 00 42 00 43
UTF-16(Little Endian)
FF FE 41 00 42 00 43 00
UTF-16(不帶BOM)
00 41 00 42 00 43
Windows平臺下默認的Unicode編碼為Little Endian的UTF-16（即上述的 FF FE 41 00 42 00 43 00）。你可以打開記事本，寫上ABC，然后保存，再用二進制編輯器看看它的編碼結果。

另外，UTF-16還能表示一部分的UCS-4代碼點——U 10000～U 10FFFF。表示算法比較復雜，簡單說明如下：
從代碼點U中減去0x10000，得到U'。這樣U 10000～U 10FFFF就變成了 0x00000～0xFFFFF。
用20位二進制數(shù)表示U'。 U'=yyyyyyyyyyxxxxxxxxxx
將前10位和后10位用W1和W2表示，W1=110110yyyyyyyyyy，W2=110111xxxxxxxxxx，則 W1 = D800～DBFF，W2 = DC00～DFFF。
例如，U 12345表示為 D8 08 DF 45（UTF-16BE），或者08 D8 45 DF（UTF-16LE）。
但是由于這種算法的存在，造成UCS-2中的 U D800～U DFFF 變成了無定義的字符。
UTF-32
UTF-32用四個字節(jié)表示代碼點，這樣就可以完全表示UCS-4的所有代碼點，而無需像UTF-16那樣使用復雜的算法。與UTF-16類似，UTF-32也包括UTF-32、UTF-32BE、UTF-32LE三種編碼，UTF-32也同樣需要BOM字符。僅用'ABC'舉例：
UTF-32BE
00 00 00 41 00 00 00 42 00 00 00 43
UTF-32LE
41 00 00 00 42 00 00 00 43 00 00 00
UTF-32(Big Endian)
00 00 FE FF 00 00 00 41 00 00 00 42 00 00 00 43
UTF-32(Little Endian)
FF FE 00 00 41 00 00 00 42 00 00 00 43 00 00 00
UTF-32(不帶BOM)
00 00 00 41 00 00 00 42 00 00 00 43
UTF-8
UTF-16和UTF-32的一個缺點就是它們固定使用兩個或四個字節(jié)，這樣在表示純ASCII文件時會有很多00字節(jié)，造成浪費。而RFC3629定義的UTF-8則解決了這個問題。
UTF-8用1～4個字節(jié)來表示代碼點。表示方式如下：
UCS-2 (UCS-4)
位序列
第一字節(jié)
第二字節(jié)
第三字節(jié)
第四字節(jié)
U 0000 .. U 007F
00000000-0xxxxxxx
0xxxxxxx
U 0080 .. U 07FF
00000xxx-xxyyyyyy
110xxxxx
10yyyyyy
U 0800 .. U FFFF
xxxxyyyy-yyzzzzzz
1110xxxx
10yyyyyy
10zzzzzz
U 10000..U 1FFFFF
00000000-000wwwxx-
xxxxyyyy-yyzzzzzzz
11110www
10xxxxxx
10yyyyyy
10zzzzzz
可見，ASCII字符（U 0000～U 007F）部分完全使用一個字節(jié)，避免了存儲空間的浪費。而且UTF-8不再需要BOM字節(jié)。
另外，從上表中可以看出，單字節(jié)編碼的第一字節(jié)為[00-7F]，雙字節(jié)編碼的第一字節(jié)為[C2-DF]，三字節(jié)編碼的第一字節(jié)為[E0-EF]。這樣只要看到第一個字節(jié)的范圍就可以知道編碼的字節(jié)數(shù)。這樣也可以大大簡化算法。

版權聲明：本站文章來源標注為YINGSOO的內(nèi)容版權均為本站所有，歡迎引用、轉載，請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網(wǎng)站，禁止在非www.sddonglingsh.com所屬的服務器上建立鏡像，否則將依法追究法律責任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來，僅供學習參考，不代表本站立場，如有內(nèi)容涉嫌侵權，請聯(lián)系alex-e#qq.com處理。

硬防服務器：硬防服務器有什么不同嗎，選擇硬防怎么樣

網(wǎng)絡服務器：如何防服務器IP暴露，有何應對方法

流量攻擊：流量攻擊的表現(xiàn)是什么，怎樣防大流量攻擊

虛擬主機被攻擊：虛擬主機被攻擊該怎樣處理，能夠防范嗎

高防服務器的：國內(nèi)高防服務器的優(yōu)劣怎樣看教你四點技巧

高防服務器：高防服務器的特點是啥，租用的好處在哪

高防服務器：哪里的高防服務器好，怎樣看是不是真高防

高防服務器：常見攻擊服務器的方式有什么，高防服務器有用嗎

高防服務器：高防服務器究竟好不好，怎樣選才可靠

高防服務器的價格：500g高防服務器貴不貴，費用多少合理