相关工具
在线文本字符集编码查询,输入文本数据,查看文本在不同字符集下的编码。输入文本编码,查看不同字符集解码的文本。
在线文本字符集编码查询工具,查询输出的文字在不同字符集下的编码。本工具支持近百种字符集,比如US-ASCII,UTF-8,UTF16,UTF-32,GBK,GB18030等。
- 输入文本:输入的文本内容,内容的格式由 输入类型 确定。
- 输入类型:输入内容的格式,支持输入 普通文本,HEX字符串,Base64字符串,Binary字符串。
- 输入字符集:当输入类型不是普通文本时,选择输入内容转换为普通文本所使用的字符集。
- 输出字符集:选择查看输入文本在哪些字符集下的编码。
- 输出模式:选择输出内容模式为逐字输出还是批量输出。
- 输出类型:选择文本的字符集编码的输出类型,支持输出为 HEX,Base64和Binary。在 单字 输出模式下,还支持 十进制 的输出类型。
- 查询的结果包含文字在各个字符集下的编码。在单字输出模式下时,还将显示文字的 Unicode Code Point。
- 部分字符集会在编码的起始位置,添加 BOM(Byte Order Mark),来表明编码的字节顺序是大端序还是小端序。 比如 UTF-16 编码会添加 0xFEFF 字节。因此在单个字符的每个 UTF-16 编码前,以及批量模式下整个 UTF-16 编码前, 都会有额外的 0xFEFF 字节。
-
文字编码说明
- Unicode 只是一个用来映射字符和数字的标准。每一个字符对应的数字编码称为 Unicode Code Point。 至于字符怎样被编码成内存中的字节,由 UTF(Unicode Transformation Formats) 定义,Unicode 本身并不关心。
- UTF-8、UTF-16 是两个最流行的 Unicode 编码方案。其中 UTF-8 编码在全球范围内使用的最为广泛。 UTF-8 是变长多字节编码,可以使用 1-6 个字节表示一个 Unicode 字符。
- ASCII 是典型的单字节编码方案,即使用单个字节(8 bit)表示一个字符。它占用了一个字节的低 7 位,提供 128 个字符的编码。
- GB2312 和 GBK 都是双字节编码方案,将两个字节连在一起表示一个字符。不同的是,GB2312 要求两个字节都 >127(最高 bit 位为 1 );GBK 只要求两个字节中的高字节 >127。
- GB18030 是一二四字节变长编码方案,使用1个/2个/4个字节来表示一个字符,其中单字节编码部分与 ASCII 兼容,双字节编码部分与 GBK 兼容,四字节编码部分为 GB18030 新增规则。