博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
单字节字符集,多字节字符集,Unicode
阅读量:6931 次
发布时间:2019-06-27

本文共 1115 字,大约阅读时间需要 3 分钟。

hot3.png

我们在这里介绍一下字符类型。这里有3种编码模式对应3种字符类型。

第一种编码类型是单子节字符集(single-byte   character   set   or   SBCS)。在这种编码模式下,所有的字符都只用一个字节表示。ASCII是SBCS。一个字节表示的0用来标志SBCS字符串的结束。  

第二种编码模式是多字节字符集(multi-byte   character   set   or   MBCS)。一个MBCS编码包含一些一个字节长的字符,而另一些字符大于一个字节的长度。用在Windows里的MBCS包含两种字符类型,单字节字符(single-byte   characters)和双字节字符(double-byte   characters)。由于Windows里使用的多字节字符绝大部分是两个字节长,所以MBCS常被用DBCS(double-byte   character   set   or   DBCS)代替。

在DBCS编码模式中,一些特定的值被保留用来表明他们是双字节字符的一部分。例如,在Shift-JIS编码中(一个常用的日文编码模式),0x81-0x9f之间和   0xe0-oxfc之间的值表示"这是一个双字节字符,下一个子节是这个字符的一部分。"这样的值被称作"leadingbytes",他们都大于0x7f。跟随在一个leading   byte子节后面的字节被称作"trail  byte"。在DBCS中,trail  byte可以是任意非0值。像SBCS一样,DBCS字符串的结束标志也是一个单字节表示的0。  

第三种编码模式是Unicode。Unicode是一种所有的字符都使用两个字节编码的编码模式。Unicode字符有时也被称作宽字符(Wide Character),因为它比单子节字符宽(使用了更多的存储空间)。注意,Unicode不能被看作MBCS。MBCS的独特之处在于它的字符使用不同长度的字节编码。Unicode字符串使用两个字节表示的0作为它的结束标志。  

单字节字符包含拉丁文字母表,accented   characters及ASCII标准和DOS操作系统定义的图形字符。双字节字符被用来表示东亚及中东的语言。Unicode被用在COM及Windows  NT操作系统内部。  

你一定已经很熟悉单字节字符。当你使用char时,你处理的是单字节字符。双字节字符也用char类型来进行操作(这是我们将会看到的关于双子节字符的很多奇怪的地方之一)。Unicode字符用wchar_t来表示。Unicode字符和字符串常量用前缀L来表示。

转载于:https://my.oschina.net/leixiaohua1020/blog/302202

你可能感兴趣的文章
9月19日云栖精选夜读 | 云栖大会马云演讲:以前制造业靠电,未来靠数据
查看>>
点击图片中的某个部分来跳转页面
查看>>
深度:中国车企遭遇最大危机!末尾淘汰赛开始
查看>>
Spark工程开发常用函数与方法(Scala语言)
查看>>
开源拥趸的春天,你值得拥有的新版本
查看>>
Spring中的BeanPostProcessor
查看>>
Dagger2让你爱不释手-基础依赖注入框架篇
查看>>
项目上线,php的错误信息必须不让其在页面中显示给客户,
查看>>
第八章:代码和XAML协调一致5
查看>>
推荐一个在线创作流程图、思维导图软件—ProcessOn
查看>>
react router路由传参
查看>>
Jenkins关闭和重启实现方式.
查看>>
Python之浅谈exec函数
查看>>
量子计算机原理与退火算法的通俗解释
查看>>
从这些NO.1,看英特尔如何加速5G时代的到来
查看>>
Xcopy命令参数
查看>>
引领量子科学革命风骚
查看>>
筑梦:关于青年创客们的6个故事
查看>>
思考免费OA系统能否满足企业管理需求
查看>>
hadoop2.9安装指南
查看>>