unicode中文对照表(unicode编码转换中文对照表)

ASCII码

在较早的计算时代,ASCII 代码用于表示字符。英语只有 26 个字母和一些其他特殊字符和符号。

下表是 ASCII 码对照表,包含字符及其相应的十进制和十六进制值。

unicode中文对照表(unicode编码转换中文对照表)

ASCII 码对照表

从上表可以推断出,ASCII 值可以在十进制数系统中表示为 0 到 127.让我们看看 0 和 127 在 8 位字节中的二进制表示。

0 表示为

unicode中文对照表(unicode编码转换中文对照表)

0 的二进制表示

127表示为

unicode中文对照表(unicode编码转换中文对照表)

127 二进制表示

从上面的二进制表示可以推断,十进制值 0 到 127 可以使用 7 位来表示,而第 8 位是空闲的。

警告 从这个地方起,混乱开始了。

人们想出了不同的方法来使用剩余的第八位,从而使其可以表示从 128 到 255 的十进制值。那么冲突就发生了。例如,越南人使用十进制值 182 来表示越南字母 ờ,而印度人使用相同的值 182 来表示印地语字母घ。因此,如果印度人写的📮包含字母घ并且它被越南人阅读,那么将会显示为ờ。显然这不是预期的效果。

那么如何解决这个问题呢,接下来就该 Unicode 出场了。

Unicode 和代码点

Unicode 字符集将世界上的每个字符都映射到一个唯一的数字上。这确保了不同语言的字母之间没有冲突。这些数字与无关。

这些唯一的数字在 unicode 术语中称为代码点。

让我们看看它们是如何被引用的。

使用代码点引用 拉丁字符ṍ

U+1E4D

U+ 表示 unicode,1E4D是分配给字符 ṍ 的十六进制值。

英文字母A表示为 U+0041

好了,了解了这些,接下来该是重头戏了

UTF-8 编码

现在我们知道什么是 unicode 以及如何将世界上的每个字母分配给一个唯一的代码点,我们需要一种在计算机内存中表示这些代码点的方法。这就是字符编码登场的地方。 其中最为人们所熟知的就是 UTF-8 编码。

UTF-8 编码是一种大小可变的编码方案,用于表示内存中的 unicode 代码点。大小可变编码意味着代码点根据其大小使用 12、3 或 4 个字节表示。

UTF-8 1 字节编码

1个字节编码的标识是第一个比特位为0.

unicode中文对照表(unicode编码转换中文对照表)

UTF8 1字节编码表示方式

英文字母A的 unicode 代码点为 U+0041.它的二进制表示是1000001.

A 以 UTF-8 编码表示为

01000001

红色的0位表示使用1字节编码,其余位代表码位

UTF-8 2 字节编码

代码点为 U+00F1 的拉丁字母ñ的二进制值11110001.该值大于可以使用 1 字节编码格式表示的最大值,因此该字母表将使用 UTF-8 2 字节编码表示。

2 字节编码的方式是由第一个字节比特位中的高三位的比特序列110和第二个字节比特位中的高二位的比特序列10来标识。

unicode中文对照表(unicode编码转换中文对照表)

UTF8 2字节编码方式表示

Unicode 代码点U+00F1的二进制值是1111 0001.用2字节编码格式填充这些位,我们得到如下所示的ñ的UTF-8 2字节编码表示。

填充是从映射到第二个字节的最低有效位的代码点的最低有效位开始完成的。

1100001110110001

蓝色的二进制数字11110001代表码位U+00F1的二进制值,红色的是2字节编码标识符。黑色零用于填充字节中的空位。

UTF-8 3 字节编码

具有代码点U+1E4D的拉丁字符ṍ使用 3 字节编码表示,因为它大于使用 2 字节编码可以表示的最大值。

3 字节编码通过第一个字节中的位序列1110 和第二个和第三个字节中的 10的存在来标识。

unicode中文对照表(unicode编码转换中文对照表)

UTF8 3字节编码表示

ṍ 十六进制代码点 0x1E4D,对应的二进制值为1111001001101。将这些位填充到上述编码格式中,我们得到了下面所示的 ṍ 的UTF-8 3 字节编码表示。

填充是从映射到第三个字节的最低有效位的代码点的最低有效位开始进行的。

111000011011100110001101

红色位表示 3 字节编码,黑色位是填充位,蓝色位表示代码点。

UTF-8 4 字节编码

表情符号的Unicode代码点U+1F62D。这大于可以使用 3 字节编码表示的最大值,因此将使用 4 字节编码表示。

4 字节编码通过第一个字节中的11110和随后的第二个、第三个和第四个字节中的10来标识。

unicode中文对照表(unicode编码转换中文对照表)

UTF8 4字节编码表示

U+1F62D的二进制表示是11111011000101101。将这些位填入上述编码格式,我们就得到了的UTF-8 4字节编码。代码点的最低有效位映射到第四个字节的最低有效位,依此类推。

11110000100111111001100010101101

红色位标识4字节编码格式,蓝色位是实际码位,黑色位是填充位。

上面我们分别对 UTF-8 的几种编码方式进行了详细的介绍。接下来我们顺带介绍一下 UTF-16 和 UTF-32 编码方式

UTF-16 编码

UTF-16 编码是一种可变字节编码方案,它使用 2 个字节或 4 个字节来表示 unicode 代码点。所有现代语言的大多数字符都使用 2 个字节表示。

拉丁字母ñ的Unicode代码点为 U+00F1 二进制表示为 11110001。其 UTF-16 编码表示为

0000000011110001

上面的表示是在 Big Endian 字节顺序模式下(最高有效位在前)。

UTF-32 编码

UTF-32 编码是一种固定字节编码方案,它使用 4 个字节来表示所有代码点。

英文字母 A 具有 Unicode 代码点 U+0041.它的二进制表示是 1000001

它以UTF-32编码表示,如下所示,

00000000 00000000 00000000 01000001

蓝色位是代码点的二进制表示。上面的表示是在 Big Endian 字节顺序模式下。

以上就是关于字符集和字符编码的所有内容。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。商机网仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.315965.com/n/21677.html 聚才发 母婴好物

(1)
上一篇 2023年8月4日 上午12:10
下一篇 2023年8月4日 上午12:18

相关推荐

  • 笔记本2060和3060性能差多少(2060和3060差距大吗)

    RTX3060一经发布之后就争议不断,有人说他是一代神卡,有人说他是智商鉴定卡,那么RTX3060得实际表现到底如何?当下值不值得入手呢?本文就来好好探讨一下这个话题。 RTX3060的性能到底如何?处在什么段位? 我们先从参数上来谈一谈。RTX3060虽然和RTX3060TI在名字上仅仅只错了一个后缀,但是在具体参数上却差距明显,RTX3060TI采用的是…

    2023年8月4日
    434
  • 三室一厅怎么装修好看图片(优质简约现代风格装修效果图欣赏)

    我家三室一厅装修,当初在设计的时候,就停了设计师的话,做好了下面这三步,等到全部都装修完之后,全屋的颜值没的说,而且一个月就入住了,还越住越环保,让我们全家都超满意! 墙漆四白落地,不走石膏线 四面大白墙的做法是最传统的,石膏线并不是必需品,这样一来,就能减少用胶量,并且,不要把过多的装修材料堆砌在家里,用生活去填充空间最恰当。 定制家具注意板材 为了提高空…

    2023年12月9日
    181
  • 给女朋友的备注特别的有寓意的(有创意可爱超甜的高级浪漫独一无二专属备注)

    给女友的备注有内涵,202有趣的女朋友昵称 丫宝 爱我的小媳妇 债主 傲娇的小宝贝 心扉 等你 小迷糊 大小姐 贱婢领导 王二狗 机械暴龙兽 大屁眼子 智障儿童 我方水晶 大事/事业(我是要干大事业的人) 小月亮(水中月是天上月,眼前人是心上人) 一行(干一行,爱一行) 天使宝贝 不忍抛弃的小逗比 小活祖宗 心念人 这个人好贱但我喜欢 粑粑的猪头肉 神奇对象…

    2023年12月8日
    285
  • 有没有兼职可以赚钱的(拍照能挣钱吗)

    有没有手📱机兼职赚钱的工作推荐一下? 手📱机上赚钱无非就是做点赞、关注、注册、问卷等任务。建议您搜索工众号—《致富所》好的赚钱项来自目上面都有分享,免费教程,让您一键上手、立即提现。互联网的到来机会那么多,现在2024年的互联网这么发达,你还是很穷,你还怪能谁?现如今的互联网你只要有手📱机你什么都能学习。相展如果你还不知道去创微渐陆变离学习赚钱你还能做什么?…

    2023年7月23日
    124
  • 2024年苹果的期望

    企业用户在来年有很多期待的苹果。 现在只有2024年的时间不到一个月的时间,这可能是可能发生的事情。 iPhone SE – 最低成本5G iPhone现在预计苹果将在春季推出5G版的iPhone SE。 该设备有望具有触摸ID按钮,一个LCD显示器和A15处理器,但也被认为具有5G连接。 这将是获得5G iPhone的最便宜方法。 [相关:苹果的位置在企业…

    2024年1月7日
    153
  • 努尔哈赤后妃德因泽的命运轨迹,最终是什么结局?

    努尔哈赤,满洲人的杰出首领,建立了强大的后金帝国,并最终奠定了清朝的基础。在他的一生中,有众多后妃陪伴左右,其中德因泽是最为引人关注的一位。她的命运轨迹跌宕起伏,结局更是让人唏嘘不已。 德因泽,原名阿敏,是努尔哈赤的侧福晋,后来被封为皇贵妃。她的美貌和才智深得努尔哈赤的宠爱,然而,她的命运却并不如人们所想象的那般风光。 德因泽在努尔哈赤生前就已经失宠,这主要…

    2024年2月14日
    70
  • 无线端和网络pc端是什么意思(pc端包括手机和平板吗)

    PC是什么呢?你知道它的缩写吗?它是干嘛的呢?想知道吗?来看看吧! PC就是个人计算机(台式电脑或者笔记本) PC版就是电脑上玩的 另外PS2版就是这个游戏是在PS2(PLAY STATION 2)游戏机上玩的 大家在生活中经常会看到PC这个词语,那么PC到底是什么意思呢? 1.PC一词是大家日常生活中经常看到的一个词语,基本上无论在哪里都能够看到,不过很多…

    2023年11月29日
    200
  • 海马是鱼吗为什么(海马种类及图片介绍)

    没错,海马有鳃、有鳍,确定是海鱼无疑。然而,外形特别的它们,没有多少人把它们当海鱼看待。 其实我对海马很陌生,仅知道我们广东人会用海马晒干用来煲汤,听说还很滋补。又或许只有中国人才会用海马做药材和食材,而海马世界范围内急剧减少,估计也和这不无关系。 简单搜索了一下,原来我国已把海马纳入二级重大保护动物体系。然而目前全球年经营利用海马还至少有2000万尾,又为…

    2023年12月6日
    240
  • Apple 计划推出全 5G iPhone 系列,但要到 22 年

    Apple 的首款 5G iPhone 现已上市,但鉴于网络基础设施和服务仍在推出中,大多数用户尚未真正感受到其中的好处。 但您可以预计到 2024 年,这两个方面的采用都会加速。 好消息,坏消息让我们先来看看坏消息:如果日经指数的报道属实,苹果将在 2024 年之前推出全 5G iPhone 系列,届时预计还将推出采用 A15 技术的 5G iPhone …

    2024年1月6日
    172
  • 梁红玉:南宋抗金女英雄,她有哪些战功?

    梁红玉,南宋时期的一位杰出女性,以其卓越的军事才能和坚定的爱国情操,成为了中国历史上的一位著名抗金女英雄。她的一生充满了传奇色彩,她的战功更是让人赞叹不已。 梁红玉的战功主要体现在以下几个方面: 首先,梁红玉在战场上表现出了极高的军事才能。据史书记载,梁红玉在丈夫韩世忠去世后,接任了他的职务,成为了南宋抗金的重要将领。她在战场上英勇善战,屡次击败金军,为南宋…

    2024年2月9日
    70