1月 052017
开发时遇到过的UTF8文件有BOM头、导致文件不能正常解析这问题,BOM是什么这个问题请参考如下地址:
https://en.wikipedia.org/wiki/Byte_order_mark
UTF8 与 UTF8 +BOM 区别
其实就是在文件头部的3个字节:EF BB BF,而且是不可见的,可以用于标示字节编码顺序(Big-Endian/Little- Endian),UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明编码方式。Windows就是使用BOM来标记文本文件的编码方式的。此处整理一下移除BOM头的方法:
【1】文本编辑器
UltarEdit/Sublime/notepad++都可以方便的转化(比如notepad++“另存为”)
【2】编码实现
平时开发一直用java,此处给出java实现(亲测,参考自:移除UTF-8文件头的bom):
1 2 3 4 5 6 7 8 9 10 11 | public static byte [] removeUTF8BOM( byte [] bt) { if (bt != null && bt.length > 3 ) { // 前三个字节依次是 EF BB BF if (bt[ 0 ] == - 17 && bt[ 1 ] == - 69 && bt[ 2 ] == - 65 ) { byte [] nbs = new byte [bt.length - 3 ]; System.arraycopy(bt, 3 , nbs, 0 , nbs.length); return nbs; } } return bt; } |
其他处理方式:Java处理文件BOM头的方式推荐