但是上一世的汉字编码也有问题,那就是Unicode编码问世得太晚,导致了微软不得不采用一套基于GB13000的拓展编码,又因为这个原因,导致国家标准又不得不在GB13000编码基础上打了个打补丁,拓展出GBK,然后又拓展出GB18030。酖
最终得到的GB 18030-2005,全称为国家标准 GB 18030-2005《信息技术中文编码字符集》,与 GB 2312-1980完全兼容,与 GBK基本兼容,支持GB 13000及 Unicode的全部统一汉字,共收录汉字70244个。
而在那个时候,Unicode的汉字收录得还没有GB 18030-2005多,虽然理论上随便装得下所有汉字,但是无数的码位都是空的。
最后的现状,就搞成了一个旧系统补丁累补丁,而一个新系统空着大量码位没人去做填充工作,造成了数十年后信息系统当中,依然存在汉字转码不全兼容的大问题。
后世作为国企程序员的周至可谓深受其害,因此他认为解决这个问题的关键,就是国家从一开始就应该放弃局促的ISO/IEC 1064,先去把Unicode标准中的汉字空间抢得够够的,起码先抢十万个码位填充上,并且将之作为唯一强制标准,全球就用这一套。
于是说道:“八字没一撇不是正好吗?八字没一撇,我们才能够深度参与啊。只要能占有三段码位空间留给我们,就能容纳十万汉字。”
“而且Unicode只有编码的概念,其设计的目的本身就是装下全世界的各种文字。”
“汉字编码,无疑是全世界文字编码工作当中最繁复的,我们将这个工作做下来,在组织里也能拥有充分的话语权,将来还能指导其他国家和组织工作,对我们编写其余民族文字,也有奠基作用。”酖
现在周至和李红江讨论的内容,又轮到辜老这边的文史专家们听不懂了。
辜老打断了两人的热烈讨论:“肘子,小李,你们谁先用我们老头们听得懂的话解释一番?”
麦明川笑道:“大概的意思我明白了,我先来解释一下看看对不对,不对小李和周至同学再来补充。”
“现在的话有两套标准,一套是ISO/IEC 1064,这套体系已经成熟,虽然之颁布了第一部分,但是我们国家已经据此开发出GB 13000,可以快速推行。”
“但是这套系统有个大毛病,就是码位太少,只能容纳下两万一千零三个汉字,现在看来离完全满足需要,还有一段相当大的距离。”
“另外还有一套标准,就是Unicode。”
“这套标准只要分配给汉字的编码区间足够,就能够容纳下我们所有的汉字,而且今后还可以继续拿下更多的编码区间,进行进一步的拓展,或者用于给其余少数民族文字编码所用。”酖
“从设计原理来看,Unicode标准其实是优于ISO/IEC 1064的,然而这个标准现在还只是一个半吊子,第一版都还没有推出来,如果我们要使用Unicode标准的话,先得将标准完善,之后才谈得到区间分配和下一步的工作。”
“小李的意思,是咱们先将GB 13000用起来,之前已经有了搞GB2312的基础,搞这个路子熟,见效快。”
“而肘子的意思,是我们一开始就搞Unicode,一步到位,既然Unicode标准还没拍板,那我们就积极参与进去,连标准一起搞!”
“要是真的能够做到肘子所说的这样当然是最好的结果。可是,我们有那个实力吗?”辜老对国家信息产业起步猛追的印象还是有的,担心的是凭借国家现在的技术力量,完不成这项工作。