2024年1月4日发(作者:)
一、 汉字信息在计算机中的处理与存储
计算机对每一个字符进行编码形成其对应的唯一一个内码就是汉字的存储,然而同一个字符(例如“中”字)不同编码对应的内码不一样。计算机中汉字编码一般采用两个高位(左边第一位)为1 的ASCⅡ码表示一个汉字,即用两个字节表示一个汉字。汉字在计算机内的编码很复杂,涉及汉字的各种代码,如汉字输入码,汉字机内码,汉字交换码,汉字字形码等。
1、 汉字输入码
汉字输入码也叫外码,是为了通过键盘字符把汉字输入计算机而设计的一种编码。汉字的输入码种类繁多,大致有4种类型,即音码、形码、数字码和音形码。
2、 汉字机内码
汉字机内码又称内码或汉字存储码。该编码的作用是统一了各种不同的汉字输入码在计算机内的表示。汉字机内码是计算机内部存储、处理的代码。
3、 汉字交换码
汉字交换码主要是用作汉字信息交换的。
4、 汉字字形码
汉字字形码是指确定一个汉字字形点阵的代码(汉字字形码)。一般采用点阵字形表示字符.
普遍使用的汉字字型码是用点阵方式表示的称为“点阵字模码”。所谓“点阵字模码”就是将汉字像图像一样置于网状方格上每格是存储器中的一个位16×16点阵是在纵向16点、横向16点的网状方格上写一个汉字有笔画的格对应1无笔画的格对应0。这种用点阵形式存储的汉字字型信息的集合称为汉字字模库简称汉字字库。通常汉字显示使用16×16点阵而汉字打印可选用24×24点阵、32×32点阵、64×64点阵等。汉字字形点阵中的每个点对应一个二进制位1字节又等于8个二进制位所以16×16点阵字形的字要使用32个字节16×16÷8字节32字节存储64×64点阵的字形要使用512个字节。在16×16点阵字库中的每一个汉字以32个字节存放存储一、二级汉字及符号共8836个需要282.5KB磁盘空间。而用户的文档假定有10万个汉字却只需要200KB的磁盘空间这是因为用户文档中存储的只是每个汉字符号在汉字库中的地址内码。
建立汉字字库是处理汉字的主要思想之一,在显示器、打印机上输出的汉字的字形放在计算机的外存储器中。
同时 ,汉字编码是有国家标准的,叫做“中华人民共和国国家标准信息交换汉字编码”。简称 “国标码”用“GB231280”表示。GB231280包括了汉字字符基本集共收录汉字、图形符号等共7445个依据其位置分为94个区每区共94位。“区”的序号由01至94“位”的序号也是由01至94“区”和“位”构成一个汉字的四位数字编码因此四位阿拉伯数字就可以唯一地确定一个汉字或一个字符。 二、汉字信息的输入输出 汉字输入就是将汉字符号输入到计算机中目前简便易行的方式是键盘输入。有了汉字的内码和输入码计算机就可以处理汉字了下面的工作就是将处理后的汉字信息输出了。汉字是一个特殊的图形符号输出主要是指在显示器上或打印机上输出汉字的字形将它用点阵的方式描述。在汉字输出时计算机根据汉字机内码从汉字库中取出相应的汉字字型码。通过汉字处理系统的专门处理程序自动把要输出的汉字的内码转换成对应的汉字字形后输出。 三、汉字的显示 那么我们存储的汉字是如何被调用现实屏幕显示的呢不同的编码存储方式如何找到这个字符的呢这是通过识别到文本编码后再通过这个字的内码找到字库中存贮这个字符的位置,
然后将汉字的形状显示出来。
二、同英文的处理做比较
英文字符、数字和计算机中用的控制符号在计算机中是用ASCII码来表示的。ASCII码(American Standard Code for Interchange)是美国国家信息交换标准码,现已成为国际通用的信息交换标准代码。
ASCII码共有128个元素,其中通用字符32个、十进制数字10个、52个英文大小写字母和34个专用符号。这128个元素用一个字节二进制数表示,因为7位二进制数就可表示128个元素,该字节多余的最高位取0。
英文字符的显示
我们知道,无论CRT显示器,还是液晶显示器(LCD),它们的分辨率都是以像素为单位的,一个像素就是屏幕上的一个可以显示的最小单位,也就是常说的“点”。因此要在屏幕上显示一个英文字符也必须用点来表式,这些表示某种图形或英文字符的点的集合就是我们所说的点阵。
常用的英文字符有8×8点阵和8×16点阵,如大写“A” 8×8点阵如图3-1所示
8×8点阵共有8行,每行8个点;每行的8个点组成二进制的一个字节,字节的最高位D7在最左,最低位D0在最右。字节中打点的位(bit)值等于1,没有点的位bit值等于0。这样,每行的一个字节都有一个16进制数的值,例如第一行的值是0x30,第二行的值是0x78,8行8个字节数据是:0x30,0x78,0xCC,0xCC,0xFC,0xCC,0xCC,0x00。
我们把这8个字节数据叫字符“A”的8×8点阵字模。存储全部英文字符8×8点阵字模的存储单元叫英文字符8×8点阵字库。字库是按ASCII码顺序存放,显示时,按存放规律将要显示的字符的字模取出,按图3-1所示顺序把字节数据输出到屏上即可,bit值等于1的点显示时在屏上该bit 位置“打”点,bit值等于0的点显示时在屏上该bit
位置“打”空白。
8×16点阵显示原理同8×8点阵,8×8点阵一个字模占8个字节,8×16点阵一个字模占16个字节。
汉字的显示
每个汉字在字库中是以点阵形式存储的,常采用12×12、16×16、24×24、48×48点阵形式,同英文字模一样,每个点用一个二进制bit位表示,bit=1的点,当显示时,就可以在屏上显示一个点,bit=0的点,则在屏上不显示,这样把存某字的点阵信息直接用来在显示器上按上述原则显示,将出现对应的汉字。
最常用的汉字是16×16点阵,它是由行、列各16个点,共256个点组成的点阵图案,每行的16个点在内存中占二个字节,一个16×16点阵汉字共16行,在内存中占32个字节。
根据这些字节在字膜中存放的顺序,第一行的第一个字节我们称“0”号字节,第二个字节我们称“1”号字节;第二行的第一个字节我们称“2”号字节,第二个字节我们称“3”号字节。以此类推,最后一行的第一个字节我们称“30”号字节,第二个字节我们称“31”号字节,每个字节高位在前,低位在后,即D7在一个字节的最左侧,D0在最右侧。
英文编码存储使用1个字节,汉字使用2个字节。为避免汉字误读,在字节的头使用1来区别。
发布者:admin,转转请注明出处:http://www.yc00.com/web/1704325911a1341350.html
评论列表(0条)