小蜜蜂問答

小蜜蜂問答

utf-8編碼不能識別中文嗎？

煤老闆的小夥伴她爹發表于文化2023-01-21

煤老闆的小夥伴她爹2021-12-18 11:41:40

utf-8編碼能識別中文。

常用漢字的unicode編碼範圍為4E00-9FA5，此範圍被包含於UTF-8 3位元組編碼範圍內。

故若文字由UTF-8編碼時，一個漢字將由三個位元組組成。

而這三個位元組的第一個的範圍將為：1110 0100 - 1110 1001。

使用FileReader。readAsBinaryString（）讀取檔案，結果為由每個位元組的二進位制資料轉換為unicode組成的字串。

所以需要檢查結果中含有1110 0100 - 1110 1001這個範圍內的字元的比例就可以判斷文字編碼型別是否為UTF-8。

上一篇：<<鵝頸會議麥克風什麼合適開會使用？

下一篇：河流，池塘等乾枯無水。用成語怎麼形容？>>

標籤： 1110 編碼位元組 UTF 範圍