utf-8編碼不能識別中文嗎?煤老闆的小夥伴她爹2021-12-18 11:41:40

utf-8編碼能識別中文。

常用漢字的unicode編碼範圍為4E00-9FA5,此範圍被包含於UTF-8 3位元組編碼範圍內。

故若文字由UTF-8編碼時,一個漢字將由三個位元組組成。

而這三個位元組的第一個的範圍將為:1110 0100 - 1110 1001。

使用FileReader。readAsBinaryString()讀取檔案,結果為由每個位元組的二進位制資料轉換為unicode組成的字串。

所以需要檢查結果中含有1110 0100 - 1110 1001這個範圍內的字元的比例就可以判斷文字編碼型別是否為UTF-8。