第一千零八十九章 求助(2 / 2)

周至在大字库研发小组里的地位有些特殊,有点类似“独董”,地位介于领导者和工作者之间,如果从知识产权占比这边来论的话,和微软,UNICODE组织一样,用“合作者”来定义比较合适。

因此给部里汇报的事情,他也不是特别清楚:“不知道,我最多就是个旁听。等麦主任和李教授来京了会和我联系。”

“你们的二期字库什么时候出来?”王老爷子很关心这事儿:“还有典籍数字化的工作准备什么时候开始?”

“现在大家的意见有分歧。”周至其实也很无奈,在瀚文大字库这个概念推出以前,好像大家根本都不急,现在研究方向打通了,一期研发和转化其实还是一个可行性验证的过程,实际证明这条路是完全可以走通的。

虽然一期字库已经非常好用,基本可以满足各地企事业机构,政府机关的需要,然而报社出版社图书馆档案馆这些地方,依旧不满意。

以前那是压根没指望过,所以大家都觉得“日子还能将就过”,现在发现日子原来可以变好,而且够一够的话,还能更好……

于是压力就给到了开发组。

“什么意见分歧?”

“主要是大家和我的分歧。”周至摊开手:“我的意思是磨刀不误砍柴工,等到第三期字库推出以后,汉字转码入库十万以上,自定义汉字申报入库工作流程和相关规定,软件都弄好,再进行数字化图书馆项目不晚。”

“那你觉得三期字库的推出还有多久?”启老爷子追问道。

“其实现在阻碍并不在技术上,一期的开发工作涵盖了全部取字、编码、入库工作流程,我们开发了很多的工具软件来提高效率,形成了自动扫描识别技术,自动检字分类技术,自动转矢量技术等一系列基于大字库基础上的专利技术大包。”

“现在的问题反而在采字上,二期字库最少必须要突破六万六千字,用完一个平面,才能为三期字库的验证工作做完前瞻性研究。”

在场所有人都面面相觑,完全听不懂。

不过老一代学问人最大的优点就是不懂就问:“为什么要突破六万六千字呢?”

“是这样的,UNICODE的编码规则,就是给各种字码编出些‘平面’,这些平面,大家可以理解成印刷厂放铅码的铅码盘。”

“不过UNICODE这个盘子就比印刷厂的大多了,一个平面就有65536个码位,理论上可以存放六万五千多个汉字。”

“在一个平面上编码存码的工作,我们在一期就已经完成了,现在要验证转化的,是跨平面编码解码的技术。因为三期字库投产后,瀚文大字库是铁定跨平面的,因此我们想在二期就突破过去,提前完成可行性方案验证和相关的技术储备。”

“现在《康熙字典》也就四万多字,第一版的《汉语大字典》也才五万六千多字,都达不到打破UNICODE一个平面的要求。”

“所以此次来京,还要拜会两位叔伯老师兄,寻求他们的帮助。”

“谁?”启老笑道:“说不定我们也能够帮得上忙。”