字符集简介

admin•2025-03-21 02:36:46•建站资讯•阅读37

字符集简介

2024年5月24日发(作者：)

一、什么是字符集?什么是编码?

字符(Character)是文字与符号的总称，包括文字、图形符号、数学符号等。

一组抽象字符的集合就是字符集(Charset)。

字符集常常和一种具体的语言文字对应起来，该文字中的所有字符或者大部分常用字符就构成了

该文字的字符集，比如英文字符集。

一组有共同特征的字符也可以组成字符集，比如繁体汉字字符集、日文汉字字符集。

字符集的子集也是字符集。

计算机要处理各种字符，就需要将字符和二进制内码对应起来，这种对应关系就是字符编码

(Encoding)。

制定编码首先要确定字符集，并将字符集内的字符排序，然后和二进制数字对应起来。根据字符

集内字符的多少，会确定用几个字节来编码。

每种编码都限定了一个明确的字符集合，叫做被编码过的字符集(Coded Character Set)，这是字符

集的另外一个含义。通常所说的字符集大多是这个含义。

二、有哪些字符集?

ASCII:

American Standard Code for Information Interchange，美国信息交换标准码。

目前计算机中用得最广泛的字符集及其编码，由美国国家标准局(ANSI)制定。

它已被国际标准化组织(ISO)定为国际标准，称为ISO 646标准。

ASCII字符集由控制字符和图形字符组成。

在计算机的存储单元中，一个ASCII码值占一个字节(8个二进制位)，其最高位(b7)用作奇偶校

验位。

所谓奇偶校验，是指在代码传送过程中用来检验是否出现错误的一种方法，一般分奇校验和偶校

验两种。

奇校验规定:正确的代码一个字节中1的个数必须是奇数，若非奇数，则在最高位b7添1。

偶校验规定:正确的代码一个字节中1的个数必须是偶数，若非偶数，则在最高位b7添1。

ISO 8859-1:

ISO 8859，全称ISO/IEC 8859，是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系

列8位字符集的标准，现时定义了15个字符集。

ASCII收录了空格及94个“可印刷字符”，足以给英语使用。

但是，其他使用拉丁字母的语言(主要是欧洲国家的语言)，都有一定数量的变音字母，故可以使

用ASCII及控制字符以外的区域来储存及表示。

除了使用拉丁字母的语言外，使用西里尔字母的东欧语言、希腊语、泰语、现代阿拉伯语、希伯

来语等，都可以使用这个形式来储存及表示。

* ISO 8859-1 (Latin-1) - 西欧语言

* ISO 8859-2 (Latin-2) - 中欧语言

* ISO 8859-3 (Latin-3) - 南欧语言。世界语也可用此字符集显示。

* ISO 8859-4 (Latin-4) - 北欧语言

* ISO 8859-5 (Cyrillic) - 斯拉夫语言

* ISO 8859-6 (Arabic) - 阿拉伯语

* ISO 8859-7 (Greek) - 希腊语

* ISO 8859-8 (Hebrew) - 希伯来语(视觉顺序)

* ISO 8859-8-I - 希伯来语(逻辑顺序)

* ISO 8859-9 (Latin-5 或 Turkish) - 它把Latin-1的冰岛语字母换走，加入土耳其语字母。

* ISO 8859-10 (Latin-6 或 Nordic) - 北日耳曼语支，用来代替Latin-4。

* ISO 8859-11 (Thai) - 泰语，从泰国的 TIS620 标准字集演化而来。

* ISO 8859-13 (Latin-7 或 Baltic Rim) - 波罗的语族

* ISO 8859-14 (Latin-8 或 Celtic) - 凯尔特语族

* ISO 8859-15 (Latin-9) - 西欧语言，加入Latin-1欠缺的法语及芬兰语重音字母，以及欧元符

号。

* ISO 8859-16 (Latin-10) - 东南欧语言。主要供罗马尼亚语使用，并加入欧元符号。

很明显，iso8859-1编码表示的字符范围很窄，无法表示中文字符。

但是，由于是单字节编码，和计算机最基础的表示单位一致，所以很多时候，仍旧使用iso8859-1

编码来表示。

而且在很多协议上，默认使用该编码。

UCS:

通用字符集(Universal Character Set，UCS)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准

所定义的字符编码方式，采用4字节编码。

UCS包含了已知语言的所有字符。

除了拉丁语、希腊语、斯拉夫语、希伯来语、阿拉伯语、亚美尼亚语、格鲁吉亚语，还包括中文、

日文、韩文这样的象形文字，UCS还包括大量的图形、印刷、数学、科学符号。

* UCS-2: 与unicode的2byte编码基本一样。

* UCS-4: 4byte编码, 目前是在UCS-2前加上2个全零的byte。

Unicode:

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。

它是制定的编码机制，要将全世界常用文字都函括进去。

它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本

转换、处理的要求。

1990年开始研发，1994年正式公布。随着计算机工作能力的增强，Unicode也在面世以来的十

多年里得到普及。

但自从unicode2.0开始，unicode采用了与ISO 10646-1相同的字库和字码，ISO也承诺ISO10646

将不会给超出0x10FFFF的UCS-4编码赋值，使得两者保持一致。

Unicode的编码方式与ISO 10646的通用字符集(Universal Character Set，UCS)概念相对应，目前

的用于实用的Unicode版本对应于UCS-2，使用16位的编码空间。

也就是每个字符占用2个字节，基本满足各种语言的使用。实际上目前版本的Unicode尚未填充

满这16位编码，保留了大量空间作为特殊使用或将来扩展。

UTF:

Unicode 的实现方式不同于编码方式。

一个字符的Unicode编码是确定的，但是在实际传输过程中，由于不同系统平台的设计不一定一

致，以及出于节省空间的目的，对Unicode编码的实现方式有所不同。

Unicode的实现方式称为Unicode转换格式(Unicode Translation Format，简称为 UTF)。

发布者：admin，转转请注明出处：http://www.yc00.com/news/1716538858a2728235.html

字符编码字符集语言使用

admin

网站建设
利用Cordova进行跨平台移动开发
利用Cordova进行跨平台移动开发
admin
6月前
280
网站建设
lamda定义指标
lamda定义指标
admin
6月前
200
建站资讯
只让输入数字字母中文的正则-概念解析以及定义
只让输入数字字母中文的正则-概念解析以及定义
admin
6月前
910
网站建设
Windows启用Win32长路径取消MAX_PATH=260个字符的本地路径最大长度限制
历史Windows的本地路径长度限制为MAX_PATH260个字符，如果文件路径超过该最大长度，将导致使用问题。在最新版本的Windows中（Windows Server
admin
3月前
50
网站建设
c语言编程vcwin7,vc++6.0 win7版
vc6.0 win7版经测试可完美运行且兼容性良好，大学生朋友们在宿舍用笔记本都可以进行程序开发了。vc6.0是一款功能强悍的可视化编程工具，是一款优秀专业的C编译器，简单易
admin
3月前
120
网站建设
win7c语言编译器死机,win7 死机_电脑在装win7的时候，到了选择语言这里会死机呢？......
win7系统电脑经常卡死死机怎么样解决 1、在出现卡屏死机时按下CtrlAltDelete三个键; 2、在弹出的界面中点击“任务管理器”; 3、点击“文件”--“运行新任务”，输入“explorer.exe”回车。 e
admin
3月前
100
网站建设
C语言 | windows.h实现彩色圣诞树
目录一、实验环境二、黑白圣诞树三、windows.h简介四、windows.h实现彩色圣诞树 1.设置用户窗口 2.移动光标 3.修改字体颜色 4.绘制圣诞树 5.绘制雪景 6.完整代码 7.运行一、实验环境
admin
2月前
90
网站建设
Go语言Windows系统开发环境配置
博客《为什么Go语言在中国格外的”火”》分析了为了中国的程序员对Go语言情有独钟。博客《Go语言的前世今生》简单介绍了Go语言的发展历程。按照套路，本应该还有一篇博客写Go语言的优势。但目前不会这么做，我想大家更应该的是在学习使用G
admin
1月前
10
网站建设
Windows Server 2012 配置指南之系统语言汉化篇
首先，当我们连接上服务器的时候，许多小伙伴是茫然的，没错是茫然的！ 因为我们的女票竟然还是一个洋妞，咋办呢&#xff1f
admin
1月前
60
网站建设
操作系统实验（四）银行家算法C++语言实现
问题描述：设计程序模拟预防进程死锁的银行家算法的工作过程。假设系统中有n个进程P1, … ,Pn，有m类可分配的资源R1, … ,Rm，在T0时刻，进程Pi分配到的j类资源为Allocationij个，它还需要j类资源Need ij个，
admin
1月前
10
网站建设
go语言windowslinux系统下的交叉编译
在开发中往往总是遇到在windows系统下开发，在linux系统上部署的需求。那么如何做交叉编译呢？下面以64位系统为例。一、Windows下编译成Linux可执行文件 # cmdgo en
admin
1月前
30
网站建设
win7怎么修改系统语言
win7怎么修改系统语言？点击电脑左下角的“开始”，再点击“控制面板”，点击“时间，语言和区域”，点击”更改显示语言”&#
admin
1月前
40
网站建设
windows server 2008 R2如何更换系统界面语言中文换英文
下面我们来讲解一下如何将中文系统转化成日文、韩文、英文等其它语言界面的系统。以windows server 2008 R2系统中文变英文为例：1、到微软官方下载：Windows Server 20
admin
27天前
00
网站建设
C语言教程-2-环境搭建
工欲善其事必先利其器,告诉你如何搭建好一个C开发环境无论什么语言的学习,都需要搭建学习环境,事实上,对于编程而言,我们搭建的学习环境,其实基本就是真正的开发环境. 本章系统讲解几种常见软件(工具)的安装.此外,也会花费一些功夫聊聊软件
admin
24天前
20
网站建设
Go语言超全详解
1. Go语言的出现在具体学习go语言的基础语法之前，我们来了解一下go语言出现的时机及其特点。 Go语言最初由Google公司的Robert Griesemer、Ken Thompson和Rob Pike三个大牛于
admin
18天前
20
网站建设
联想拯救者p7000C语言编译器,联想拯救者刃7000P台式机装win10系统及bios设置方法...
[文章导读]联想拯救者刃7000P台式机其搭载AMD Ryzen 5 3600处理器，预装的是win10系统,联想台式机在使用一段时间后，win10系统出现卡和慢的情况想重装win10&
admin
17天前
40
网站建设
C语言Windows图形界面程序学习（一）
第一课——Hello，world 新建程序开始编写代码Hello，world运行结果如下拓展源代码：运行结果本次实验是在vc6平台下实现的，弹出对话框——Hello，world 新建程序新建一个工程选择“一个简单的Win32程序” 转移
admin
14天前
00
网站建设
windows C语言读串口数据
（1）这种方式真的很奇怪，乍一看咋都不像打开串口的，但是真的可以打开。不过在这段代码里并没有配置串口，所以必须借助串口助手才可以&
admin
14天前
20
网站建设
C语言windows系统库，windows.h
1.弹出对话框首先调用Windows.h这个头文件 #include<windows.h> 接下来调用MessageBox(1,2,3,4); 第一个参数设置为0，第一个参数是依赖的窗口的编号&#
admin
22小时前
10
网站建设
Windows下vscode配置C语言编程环境（初学者入门超详细）
目录一、前言二、配置环境 2.1 下载MinGW 2.1.1 通过MinGW官网下载 2.1.2 直接点击下方链接下载 2.1.3 解压文件 2.2 配置环境变量 2.2.1 配置环境变量 2.2.2 测试环境变量
admin
22小时前
10

发表回复

评论列表（0条）

暂无评论

字符集简介

发表回复

评论列表（0条）

联系我们

400-800-8888

字符集简介

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888