您的位置:首页精文荟萃软件资讯 → 贴上一贴:GB码和BIG5码的互换技术

贴上一贴:GB码和BIG5码的互换技术

时间:2004/10/7 19:16:00来源:本站整理作者:蓝点我要评论(0)


            
             
              
             
            

               
               

            



               中文与英文用ASCII码一个字节表示不同,它使用两个字节来表示。事实上,在文本文件中保存的就是每个汉字对应的两个字节编码,而显示问题由中文操作系统自动解决。
    汉字编码并不统一,我们使用的是GB码,而台湾地区使用的是BIG5码。BIG5码文件中保存的是汉字相应的BIG5编码,GB码文件中保存的是汉字相应的GB编码。所以转换工作的关键是有一个记录每个BIG5编码对应GB编码的码表文件。
    GB码编码规则是这样的:每个汉字由两个字节构成,第一个字节的范围从0XA1-0XFE,共96种。第二个字节的范围分别为0XA1-0XFE,共96种。利用这两个字节共可定义出 96 * 96=8836种汉字。实际共有6763个汉字。
    BIG5码编码规则是这样的:每个汉字由两个字节构成,第一个字节的范围从0X81-0XFE,共126种。第二个字节的范围分别为0X40-0X7E,0XA1-0XFE,共157种。也就是说,利用这两个字节共可定义出 126 * 157=19782种汉字。这些汉字的一部分是我们常用到的,如一、丁,这些字我们称为常用字,其BIG5码的范围为0XA440-0XC671,共5401个。较不常用的字,如滥、调,我们称为次常用字,范围为 0XC940-0XF9FE,共7652个,剩下的便是一些特殊字符。
    制作码表文件的原理是这样的:首先将所有的GB编码写入一个文件,然后,使用具有GB码到BIG5码转换功能的软件,如UCDOS下的CONVERT.EXE,将文件转换为BIG5码文件,即得到码表文件。
    下面的程序可将全部国标码写入文件gb.txt(以下全部程序用foxpro书写,可很容易的转换成其他语言)

    fp = fopen("gb.txt",2)
    for i=161 to 247
      for j=161 to 254
        =fwrite(fp,chr(i)+chr(j))
      next
      =fwrite(fp,chr(13)+chr(10))
    next
    =fwrite(fp,chr(26))
    =fclose(fp)

    文件的组织形式:行对应编码的第一字节,列对应编码的第二字节。使用时请注意编码的偏移量,如汉字“啊”GB编码0xb1a1第一字节0xb1(177)第二字节0xa1(161)所以他应该在文件的第(177-161=16)行第((161-161)*2=0)列。
    运行CONVERT.EXE将gb.txt转换成BIG5码的文件,这样就可得到按GB码组织的BIG5码表文件big5.txt。反之亦可得到按BIG5码组织的GB码表文件。

    转换的思路是这样的:(用foxpro书写)
    首先将码表文件装入数组
    fp = fopen("big5.txt")
    i = 0
    do while feof(fp)
      i = i+1
      dime dict[i]
      dict[i] = fgets(fp)
    enddo
    =fclose(fp)
    其次将待转换的文本装入变量
    create cursor temp (mm m)
    append blank
    append memo mm from textfilename
    text = mm
    然后扫描文本,替换所有的GB编码
    temp = ""
    i = 1
    do while i < len(text)
      ch = substr(text,i,1)
      if isascii(ch)   && 若是ASCII码
        temp = temp+ch
        i = i+1
      else
        ch1 = substr(text,i+1,1)
        big5 = substr(dict[asc(ch)-161+1],(asc(ch1)-161)*2+1,2)
        temp = temp+big5
        i = i+2
      endif
    enddo
    最后将在temp中得到转换后的文本

    需要注意的是,在foxpro中数组指针是以1开始,substr函数的起始位>=1。
    foxpro大家应该都会,看得懂的。转换好的big5.txt(17k)无法张贴。如有需要,请与我联系。email: czjsz_ah@stats.gov.cn

相关阅读 Windows错误代码大全 Windows错误代码查询激活windows有什么用Mac QQ和Windows QQ聊天记录怎么合并 Mac QQ和Windows QQ聊天记录Windows 10自动更新怎么关闭 如何关闭Windows 10自动更新windows 10 rs4快速预览版17017下载错误问题Win10秋季创意者更新16291更新了什么 win10 16291更新内容windows10秋季创意者更新时间 windows10秋季创意者更新内容kb3150513补丁更新了什么 Windows 10补丁kb3150513是什么

文章评论
发表评论

热门文章 360快剪辑怎么使用 36金山词霸如何屏幕取词百度收购PPS已敲定!3

最新文章 微信3.6.0测试版更新了微信支付漏洞会造成哪 360快剪辑怎么使用 360快剪辑软件使用方法介酷骑单车是什么 酷骑单车有什么用Apple pay与支付宝有什么区别 Apple pay与贝贝特卖是正品吗 贝贝特卖网可靠吗

人气排行 xp系统停止服务怎么办?xp系统升级win7系统方电脑闹钟怎么设置 win7电脑闹钟怎么设置office2013安装教程图解:手把手教你安装与qq影音闪退怎么办 QQ影音闪退解决方法VeryCD镜像网站逐个数,电驴资料库全集同步推是什么?同步推使用方法介绍QQ2012什么时候出 最新版下载EDiary——一款好用的电子日记本