unicode中文对照表(unicode编码转换中文对照表)

ASCII码

在较早的计算时代,ASCII 代码用于表示字符。英语只有 26 个字母和一些其他特殊字符和符号。

下表是 ASCII 码对照表,包含字符及其相应的十进制和十六进制值。

unicode中文对照表(unicode编码转换中文对照表)

ASCII 码对照表

从上表可以推断出,ASCII 值可以在十进制数系统中表示为 0 到 127.让我们看看 0 和 127 在 8 位字节中的二进制表示。

0 表示为

unicode中文对照表(unicode编码转换中文对照表)

0 的二进制表示

127表示为

unicode中文对照表(unicode编码转换中文对照表)

127 二进制表示

从上面的二进制表示可以推断,十进制值 0 到 127 可以使用 7 位来表示,而第 8 位是空闲的。

警告 从这个地方起,混乱开始了。

人们想出了不同的方法来使用剩余的第八位,从而使其可以表示从 128 到 255 的十进制值。那么冲突就发生了。例如,越南人使用十进制值 182 来表示越南字母 ờ,而印度人使用相同的值 182 来表示印地语字母घ。因此,如果印度人写的📮包含字母घ并且它被越南人阅读,那么将会显示为ờ。显然这不是预期的效果。

那么如何解决这个问题呢,接下来就该 Unicode 出场了。

Unicode 和代码点

Unicode 字符集将世界上的每个字符都映射到一个唯一的数字上。这确保了不同语言的字母之间没有冲突。这些数字与无关。

这些唯一的数字在 unicode 术语中称为代码点。

让我们看看它们是如何被引用的。

使用代码点引用 拉丁字符ṍ

U+1E4D

U+ 表示 unicode,1E4D是分配给字符 ṍ 的十六进制值。

英文字母A表示为 U+0041

好了,了解了这些,接下来该是重头戏了

UTF-8 编码

现在我们知道什么是 unicode 以及如何将世界上的每个字母分配给一个唯一的代码点,我们需要一种在计算机内存中表示这些代码点的方法。这就是字符编码登场的地方。 其中最为人们所熟知的就是 UTF-8 编码。

UTF-8 编码是一种大小可变的编码方案,用于表示内存中的 unicode 代码点。大小可变编码意味着代码点根据其大小使用 12、3 或 4 个字节表示。

UTF-8 1 字节编码

1个字节编码的标识是第一个比特位为0.

unicode中文对照表(unicode编码转换中文对照表)

UTF8 1字节编码表示方式

英文字母A的 unicode 代码点为 U+0041.它的二进制表示是1000001.

A 以 UTF-8 编码表示为

01000001

红色的0位表示使用1字节编码,其余位代表码位

UTF-8 2 字节编码

代码点为 U+00F1 的拉丁字母ñ的二进制值11110001.该值大于可以使用 1 字节编码格式表示的最大值,因此该字母表将使用 UTF-8 2 字节编码表示。

2 字节编码的方式是由第一个字节比特位中的高三位的比特序列110和第二个字节比特位中的高二位的比特序列10来标识。

unicode中文对照表(unicode编码转换中文对照表)

UTF8 2字节编码方式表示

Unicode 代码点U+00F1的二进制值是1111 0001.用2字节编码格式填充这些位,我们得到如下所示的ñ的UTF-8 2字节编码表示。

填充是从映射到第二个字节的最低有效位的代码点的最低有效位开始完成的。

1100001110110001

蓝色的二进制数字11110001代表码位U+00F1的二进制值,红色的是2字节编码标识符。黑色零用于填充字节中的空位。

UTF-8 3 字节编码

具有代码点U+1E4D的拉丁字符ṍ使用 3 字节编码表示,因为它大于使用 2 字节编码可以表示的最大值。

3 字节编码通过第一个字节中的位序列1110 和第二个和第三个字节中的 10的存在来标识。

unicode中文对照表(unicode编码转换中文对照表)

UTF8 3字节编码表示

ṍ 十六进制代码点 0x1E4D,对应的二进制值为1111001001101。将这些位填充到上述编码格式中,我们得到了下面所示的 ṍ 的UTF-8 3 字节编码表示。

填充是从映射到第三个字节的最低有效位的代码点的最低有效位开始进行的。

111000011011100110001101

红色位表示 3 字节编码,黑色位是填充位,蓝色位表示代码点。

UTF-8 4 字节编码

表情符号的Unicode代码点U+1F62D。这大于可以使用 3 字节编码表示的最大值,因此将使用 4 字节编码表示。

4 字节编码通过第一个字节中的11110和随后的第二个、第三个和第四个字节中的10来标识。

unicode中文对照表(unicode编码转换中文对照表)

UTF8 4字节编码表示

U+1F62D的二进制表示是11111011000101101。将这些位填入上述编码格式,我们就得到了的UTF-8 4字节编码。代码点的最低有效位映射到第四个字节的最低有效位,依此类推。

11110000100111111001100010101101

红色位标识4字节编码格式,蓝色位是实际码位,黑色位是填充位。

上面我们分别对 UTF-8 的几种编码方式进行了详细的介绍。接下来我们顺带介绍一下 UTF-16 和 UTF-32 编码方式

UTF-16 编码

UTF-16 编码是一种可变字节编码方案,它使用 2 个字节或 4 个字节来表示 unicode 代码点。所有现代语言的大多数字符都使用 2 个字节表示。

拉丁字母ñ的Unicode代码点为 U+00F1 二进制表示为 11110001。其 UTF-16 编码表示为

0000000011110001

上面的表示是在 Big Endian 字节顺序模式下(最高有效位在前)。

UTF-32 编码

UTF-32 编码是一种固定字节编码方案,它使用 4 个字节来表示所有代码点。

英文字母 A 具有 Unicode 代码点 U+0041.它的二进制表示是 1000001

它以UTF-32编码表示,如下所示,

00000000 00000000 00000000 01000001

蓝色位是代码点的二进制表示。上面的表示是在 Big Endian 字节顺序模式下。

以上就是关于字符集和字符编码的所有内容。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。商机网仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.315965.com/n/21677.html 聚才发 母婴好物

(1)
上一篇 2023年8月4日 上午12:10
下一篇 2023年8月4日 上午12:18

相关推荐

  • 北宋六贼是哪六贼

    最近很多人对这个北宋的六贼和五鬼非常的感兴趣,那么很多人也都问了,这个北宋的六贼和五鬼到底是哪些人呢?这个问题也比较有意思的,下面我们可以一起来揭秘分析看看,对这个问题比较感兴趣的可以一起来学习分析分析。 1、北宋六贼 北宋六贼分别是:蔡京、童贯、王黼、梁师成、朱勔、李彦。 1.1、蔡京 蔡京(1047年2月14日-1126年8月11日),字元长,北宋宰相、…

    2024年2月10日
    38
  • 18k金多少钱一克2024年(18k金回收价价格表)

    作为目前最有价值的物品,很多人会在价格低的时候买黄金。然而,由于市场上有k金彩金,很多人在买时会讨论18k金的价格。让我们和你一起看看。 一克18k多少钱? 18k黄金一般在每克275-333元之间,以您所在地区的实时价格为准。18k珠宝的黄金含量为75%,25%由银、铜等材料制成。但其款式新颖,色彩多样,美观精致,更受年轻人欢迎。 黄金首饰是18K还是硬金…

    2023年12月10日
    264
  • 康熙皇帝与孝懿仁皇后深情厚意,相处到底有多好?

    在中国历史的长河中,有无数令人叹为观止的爱情故事。其中,清朝皇帝康熙和孝懿仁皇后的深情厚意更是传颂千古,成为了历史的一部分。他们的爱情故事不仅展现了深深的夫妻之情,更揭示了他们对于国家、对于人民的深深热爱。 康熙皇帝的深情厚意 康熙皇帝是清朝的一位伟大的君主,他的统治期间,国力强盛,人民安居乐业。然而,在他的生活中,最让人感动的,无疑是他对孝懿仁皇后的深情厚…

    2024年2月19日
    27
  • 宋徽宗的皇后下场是什么?分别是什么样的?

    一、引言 在中国的历史中,有很多皇帝和皇后之间的故事和传说。其中,宋徽宗和他的皇后们备受关注。宋徽宗曾经有多位皇后,但是他们的下场却是各不相同。本文将从历史资料出发,探讨宋徽宗的皇后们的下场。 二、李氏的下场 李氏是宋徽宗的第一任皇后,也是他的正妻。虽然李氏没有生育皇子,但是她在宋徽宗心中的地位却是非常高的。然而,李氏在宋徽宗晚年时被废黜,被迫自杀。据说,李…

    2024年2月25日
    25
  • 夺门之变:朱祁镇复位的奥秘

    夺门之变,是明朝历史上一次重要的政治事件,它不仅改变了皇位的归属,也影响了明朝的历史进程。那么,夺门之变究竟是怎么回事?朱祁镇又是如何成功复位的呢?本文将为您揭示这一历史事件的真相。 夺门之变发生在明成祖朱棣篡位后的第五年,即永乐五年(1407年)。当时,朱棣为了巩固自己的皇位,大肆打压反对势力,甚至不惜杀害自己的亲人。然而,他的行为引起了朝中大臣的不满,其…

    2024年2月21日
    31
  • Hexnode 的 CEO 谈 Apple 在企业和工作场所的转变源代码

    Apple 快速增长的企业市场份额正在扩大产品的支持服务生态系统。 最近进入 Apple 设备管理领域的一家公司是 Hexnode。 我花了一点时间与公司创始人兼首席执行官阿普·帕维斯兰 (Apu Pavithran) 一起,通过他的眼睛看世界的这一部分。 未来的工作场所会是什么样子?在我们度过大流行病的过程中,我们听到了很多关于新工作场所的信息。 但还没有…

    2024年1月8日
    136
  • 对于大多数用户来说,Windows 11 22H2 并没有起到什么作用源代码

    上周,我写了一篇关于我用来询问 PC 用户他们对 Windows 11 的计划的调查。随着 22H2 发布的临近——Windows 11 现在已经一年了——操作假设是很多人会 准备继续部署。 正如我之前所说,这是一项不科学的调查,只是试图了解每个人的计划。 我没有限制谁可以回答问题,也没有试图建立偏见。 (如果您想权衡您感兴趣的 Windows 10 或 1…

    2024年1月12日
    142
  • 李白的静夜思是什么内容?如何赏析?

    李白,字太白,号青莲居士,唐代伟大的浪漫主义诗人,被誉为“诗仙”。他的诗歌作品具有很高的艺术价值和历史价值,其中《静夜思》是一首广为传颂的经典之作。本文将对《静夜思》的内容进行简要介绍,并对其赏析进行分析。 《静夜思》全文如下: 床前明月光,疑是地上霜。 举头望明月,低头思故乡。 这首诗以简练的文字描绘了一个人在寂静的夜晚,看到明亮的月光洒在床前,误以为是地…

    2024年2月6日
    40
  • 狄仁杰儿子狄光远的下场如何?善终了吗?

    标题:狄仁杰之子狄光远:英勇善战,最终成为一代传奇首段:在中国历史上,有许多令人瞩目的英雄人物。其中,狄仁杰是一位杰出的政治家、文学家和法官。他的一生充满了传奇色彩,成为了后世传颂的英雄佳话。而狄仁杰的儿子,狄光远,同样继承了父辈的英勇善战,成为了一代传奇。然而,关于狄光远的结局,历史上却留下了一个谜团。本文将带您一起揭开这个谜团。 一、狄光远的生平 狄光远…

    2024年2月14日
    57
  • 电脑打印机驱动怎么安装(win10电脑下载添加打印程序教程)

    打印机驱动程序安装方法有很多,一开始是通过安装打印机驱动可执行程序,像正常安装软件,现在打印机驱动安装非常简单,只需下载第三方驱动安装工具,如“驱动精灵”可以实现一键安装,然后我解释安装方法。 方法一 打开“驱动精灵”软件主界面,选择切换到“驱动管理”选项,然后选择“打印机驱动选项”,最后单击“安装”。 方法二 双击操作打印机驱动可执行程序,然后根据提示单击…

    2023年12月13日
    209