unicode中文对照表(unicode编码转换中文对照表)

ASCII码

在较早的计算时代,ASCII 代码用于表示字符。英语只有 26 个字母和一些其他特殊字符和符号。

下表是 ASCII 码对照表,包含字符及其相应的十进制和十六进制值。

unicode中文对照表(unicode编码转换中文对照表)

ASCII 码对照表

从上表可以推断出,ASCII 值可以在十进制数系统中表示为 0 到 127.让我们看看 0 和 127 在 8 位字节中的二进制表示。

0 表示为

unicode中文对照表(unicode编码转换中文对照表)

0 的二进制表示

127表示为

unicode中文对照表(unicode编码转换中文对照表)

127 二进制表示

从上面的二进制表示可以推断,十进制值 0 到 127 可以使用 7 位来表示,而第 8 位是空闲的。

警告 从这个地方起,混乱开始了。

人们想出了不同的方法来使用剩余的第八位,从而使其可以表示从 128 到 255 的十进制值。那么冲突就发生了。例如,越南人使用十进制值 182 来表示越南字母 ờ,而印度人使用相同的值 182 来表示印地语字母घ。因此,如果印度人写的📮包含字母घ并且它被越南人阅读,那么将会显示为ờ。显然这不是预期的效果。

那么如何解决这个问题呢,接下来就该 Unicode 出场了。

Unicode 和代码点

Unicode 字符集将世界上的每个字符都映射到一个唯一的数字上。这确保了不同语言的字母之间没有冲突。这些数字与无关。

这些唯一的数字在 unicode 术语中称为代码点。

让我们看看它们是如何被引用的。

使用代码点引用 拉丁字符ṍ

U+1E4D

U+ 表示 unicode,1E4D是分配给字符 ṍ 的十六进制值。

英文字母A表示为 U+0041

好了,了解了这些,接下来该是重头戏了

UTF-8 编码

现在我们知道什么是 unicode 以及如何将世界上的每个字母分配给一个唯一的代码点,我们需要一种在计算机内存中表示这些代码点的方法。这就是字符编码登场的地方。 其中最为人们所熟知的就是 UTF-8 编码。

UTF-8 编码是一种大小可变的编码方案,用于表示内存中的 unicode 代码点。大小可变编码意味着代码点根据其大小使用 12、3 或 4 个字节表示。

UTF-8 1 字节编码

1个字节编码的标识是第一个比特位为0.

unicode中文对照表(unicode编码转换中文对照表)

UTF8 1字节编码表示方式

英文字母A的 unicode 代码点为 U+0041.它的二进制表示是1000001.

A 以 UTF-8 编码表示为

01000001

红色的0位表示使用1字节编码,其余位代表码位

UTF-8 2 字节编码

代码点为 U+00F1 的拉丁字母ñ的二进制值11110001.该值大于可以使用 1 字节编码格式表示的最大值,因此该字母表将使用 UTF-8 2 字节编码表示。

2 字节编码的方式是由第一个字节比特位中的高三位的比特序列110和第二个字节比特位中的高二位的比特序列10来标识。

unicode中文对照表(unicode编码转换中文对照表)

UTF8 2字节编码方式表示

Unicode 代码点U+00F1的二进制值是1111 0001.用2字节编码格式填充这些位,我们得到如下所示的ñ的UTF-8 2字节编码表示。

填充是从映射到第二个字节的最低有效位的代码点的最低有效位开始完成的。

1100001110110001

蓝色的二进制数字11110001代表码位U+00F1的二进制值,红色的是2字节编码标识符。黑色零用于填充字节中的空位。

UTF-8 3 字节编码

具有代码点U+1E4D的拉丁字符ṍ使用 3 字节编码表示,因为它大于使用 2 字节编码可以表示的最大值。

3 字节编码通过第一个字节中的位序列1110 和第二个和第三个字节中的 10的存在来标识。

unicode中文对照表(unicode编码转换中文对照表)

UTF8 3字节编码表示

ṍ 十六进制代码点 0x1E4D,对应的二进制值为1111001001101。将这些位填充到上述编码格式中,我们得到了下面所示的 ṍ 的UTF-8 3 字节编码表示。

填充是从映射到第三个字节的最低有效位的代码点的最低有效位开始进行的。

111000011011100110001101

红色位表示 3 字节编码,黑色位是填充位,蓝色位表示代码点。

UTF-8 4 字节编码

表情符号的Unicode代码点U+1F62D。这大于可以使用 3 字节编码表示的最大值,因此将使用 4 字节编码表示。

4 字节编码通过第一个字节中的11110和随后的第二个、第三个和第四个字节中的10来标识。

unicode中文对照表(unicode编码转换中文对照表)

UTF8 4字节编码表示

U+1F62D的二进制表示是11111011000101101。将这些位填入上述编码格式,我们就得到了的UTF-8 4字节编码。代码点的最低有效位映射到第四个字节的最低有效位,依此类推。

11110000100111111001100010101101

红色位标识4字节编码格式,蓝色位是实际码位,黑色位是填充位。

上面我们分别对 UTF-8 的几种编码方式进行了详细的介绍。接下来我们顺带介绍一下 UTF-16 和 UTF-32 编码方式

UTF-16 编码

UTF-16 编码是一种可变字节编码方案,它使用 2 个字节或 4 个字节来表示 unicode 代码点。所有现代语言的大多数字符都使用 2 个字节表示。

拉丁字母ñ的Unicode代码点为 U+00F1 二进制表示为 11110001。其 UTF-16 编码表示为

0000000011110001

上面的表示是在 Big Endian 字节顺序模式下(最高有效位在前)。

UTF-32 编码

UTF-32 编码是一种固定字节编码方案,它使用 4 个字节来表示所有代码点。

英文字母 A 具有 Unicode 代码点 U+0041.它的二进制表示是 1000001

它以UTF-32编码表示,如下所示,

00000000 00000000 00000000 01000001

蓝色位是代码点的二进制表示。上面的表示是在 Big Endian 字节顺序模式下。

以上就是关于字符集和字符编码的所有内容。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。商机网仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.315965.com/n/21677.html 聚才发 母婴好物

(1)
上一篇 2023年8月4日 上午12:10
下一篇 2023年8月4日 上午12:18

相关推荐

  • 文档,一个随身携带的应用程序

    大流行迫使许多移动专业人士在试图在办公室外完成工作时过于担心。 他们有吗? 他们可以使用已有的应用程序打开该项目吗? 他们能否安全高效地连接到他们的云服务? Readdle 改进的文档应用程序可能会帮助解决这些问题。 什么是文档?Documents 现在可用于运行 M1 Apple Silicon 处理器的 Mac,被认为是提高工作效率的瑞士军刀。 您可以打…

    2023年7月5日
    56
  • 怎么改家里的wifi密码和用户名(电脑手机登录192.168.1.1更改无线网密码教程)

    经常有人时间长了,换手📱机了就忘记以前设置的WiFi密码是什么了,今天就教大家怎么不用电脑用手📱机修改路由器WiFi密码。 无线路由器如果忘记了WIFI密码,需要进入路由器控制面板查看,或重新修改WIFI密码,今日我们教大家如何使用手📱机登录路由器重新修改WIFI密码 一:首先我们需要知道路由器的登录IP地址 登录手📱机查看路由器IP地址 1,打开手📱机的【…

    2023年7月5日
    90
  • 电脑截屏是哪个快捷键(win10 11台式笔记本电脑最简单截屏5个方法)

    到目前为止,许多朋友还不知道如何在电脑上截图。今天,我将在电脑上带来这五个截图的快捷键。它们真的比一个更容易使用。让我们看看。 01.Win Printscreen 使用快捷键【Win Printscreen】,屏幕上的白光可以截取当前的整个屏幕,并将图片保存到计算机的图片文件夹中。图片非常清晰,但经过任何压缩。 02.Win Shift S 这个快捷键是W…

    2023年7月5日
    72
  • 马斯克最新深度采访:我一年只休三天,7000字聊透九大热点

    马斯克在股东会上没说的内容,都在这场采访里了。 继马斯克被股东提案列为“风险人物”,特斯拉5月份股东大会被批“啥都没有”,甚至是“投资者日剧本冲刷”后,马斯克终于对这次“遮遮掩掩”的股东大会进行回应了。 日前,CNBC《华尔街直播室》的新闻主播大卫·费伯和马斯克进行了一次深度访谈,聊到了特斯拉的广告计划、特斯拉汽车定价、自动驾驶的价值、人工智能等多个话题。 …

    2023年7月5日
    53
  • 阿胶糕的制作方法与配料表比例(自制正宗的阿胶糕制作及作用)

    你是不是天气稍微一转凉,就开始手脚冰凉?Miss雨涿就是!而且,体质还容易上火,纯纯的虚不受补那种。气血不好,又不能大补,所以,常常会做一些阿胶糕,放在冰箱,每天吃两粒,坚持食用一段时间,会感觉气血充足了,脸色红润有光泽!Miss雨涿家的朱先生,妥妥的吃货,每天最大的盼头就是:我今天还没吃糕呢~ By MISS雨涿 用料 阿胶 250g 黄酒 400ml 黑…

    2023年7月5日
    70
  • 更智能的 Android 共享的 3 个快速技巧源代码

    好吧,我会:不知何故,我们目前正处于 20-frickin’-23 的风口浪尖。 然而,将信息从你的手📱机转移到你的电脑上仍然会给我们大多数人带来一个复杂得令人困惑的难题。 公平地说,自从 Android 出现在我们这个不起眼的地球上以来的 14 年里,我们已经取得了长足的进步。 但是,当你想将一些文本从你的 Android 设备传输到你的 Windows …

    2023年7月5日
    51
  • 给 IT 的注意事项 Google 真的希望其隐私设置不受干扰

    移动巨头谷歌和苹果在商业模式上的最大区别在于,苹果销售硬件和软件,而谷歌销售信息。 因此,当 Apple 在保护隐私方面大展拳脚时——例如抵制加密后门和政府传票——对他们来说相对容易。 这不是他们赚钱的主要方式。 不过,谷歌的商业模式确实讨厌隐私。 对谷歌而言,企业数据隐私以及消费者数据隐私只是剥夺了他们可以出售的原材料。 简而言之,谷歌不得不公开表示它保护…

    2023年7月5日
    58
  • 5G、物联网、SaaS 推动荷兰数据中心增长

    根据 Arizton Advisory & Intelligence 的一份新报告,物联网、SaaS 和 AI 应用程序的部署,在 5G 部署和包括智慧城市项目在内的政府支持计划的推动下,将在未来几年内推动荷兰的公共云和私有数据中心投资 研究报告。 对于企业技术专业人士来说,好消息是增长将带来更广泛的托管和云服务选项。 据 Arizton 称,数据中…

    2023年7月5日
    55
  • 特种部队电视剧排行榜前十名(最新必看的10部国产经典特种部队电影)

    很多老百姓在谈及我们敬爱的解放军时,大部分还停留在陆、海、空三军,其实随着科技的不断进步和咱们强军战略的不断发展,我可以无比自豪的告诉大家,中国人民解放军已经有了五大军种。   分别是陆军、海军、空军、火箭军、战略支援部队,爱看剧的朋友不难发现,在军旅题材的影视剧中,基本都是拍陆军,这不是因为我们其他军种不强,而是因为其他兵种太难拍了。 拍空军需要飞机,武装…

    2023年8月9日
    447
  • 我们如何通过 AI 实现可能的未来? 认识 AI 采用成熟度曲线

    我认识 Michael Wu 很多年了。 很多年。 他一直是一位思想领袖、一位有影响力的人、一位真正的科学家、一位建筑师,并且一直是一位亲爱的朋友,一位没有血缘关系的家庭成员。 当我遇到他时,他是 Lithium 的首席科学家,他即将成为影响力本质的影响者。 他写了很多关于它的开创性文章,同时开始周游世界,在从技术行业到科学的各种会议上发表演讲。 他和他的妻…

    2023年7月5日
    53