周至在大字库研发小组里的地位有些特殊,有点类似“独董”,地位介于领导者和工作者之间,如果从知识产权占比这边来论的话,和微软,UNICODE组织一样,用“合作者”来定义比较合适。
因此给部里汇报的事情,他也不是特别清楚:“不知道,我最多就是个旁听。等麦主任和李教授来京了会和我联系。”
“你们的二期字库什么时候出来?”王老爷子很关心这事儿:“还有典籍数字化的工作准备什么时候开始?”
“现在大家的意见有分歧。”周至其实也很无奈,在瀚文大字库这个概念推出以前,好像大家根本都不急,现在研究方向打通了,一期研发和转化其实还是一个可行性验证的过程,实际证明这条路是完全可以走通的。
虽然一期字库已经非常好用,基本可以满足各地企事业机构,政府机关的需要,然而报社出版社图书馆档案馆这些地方,依旧不满意。
以前那是压根没指望过,所以大家都觉得“日子还能将就过”,现在发现日子原来可以变好,而且够一够的话,还能更好……
于是压力就给到了开发组。
“什么意见分歧?”
“主要是大家和我的分歧。”周至摊开手:“我的意思是磨刀不误砍柴工,等到第三期字库推出以后,汉字转码入库十万以上,自定义汉字申报入库工作流程和相关规定,软件都弄好,再进行数字化图书馆项目不晚。”
“那你觉得三期字库的推出还有多久?”启老爷子追问道。
“其实现在阻碍并不在技术上,一期的开发工作涵盖了全部取字、编码、入库工作流程,我们开发了很多的工具软件来提高效率,形成了自动扫描识别技术,自动检字分类技术,自动转矢量技术等一系列基于大字库基础上的专利技术大包。”
“现在的问题反而在采字上,二期字库最少必须要突破六万六千字,用完一个平面,才能为三期字库的验证工作做完前瞻性研究。”
在场所有人都面面相觑,完全听不懂。
不过老一代学问人最大的优点就是不懂就问:“为什么要突破六万六千字呢?”
“是这样的,UNICODE的编码规则,就是给各种字码编出些‘平面’,这些平面,大家可以理解成印刷厂放铅码的铅码盘。”
“不过UNICODE这个盘子就比印刷厂的大多了,一个平面就有65536个码位,理论上可以存放六万五千多个汉字。”
“在一个平面上编码存码的工作,我们在一期就已经完成了,现在要验证转化的,是跨平面编码解码的技术。因为三期字库投产后,瀚文大字库是铁定跨平面的,因此我们想在二期就突破过去,提前完成可行性方案验证和相关的技术储备。”
“现在《康熙字典》也就四万多字,第一版的《汉语大字典》也才五万六千多字,都达不到打破UNICODE一个平面的要求。”
“所以此次来京,还要拜会两位叔伯老师兄,寻求他们的帮助。”
“谁?”启老笑道:“说不定我们也能够帮得上忙。”