• 09-012017
  • 中文古籍数字化的技术有哪些iscan is8000 <<返回

      中文古籍数字化的技术主要包括:1、Unicode字符集问题。使用Unicode技术可以构造跨语境的应用,使数字化的古籍可在中文简体、中文繁体、日文、韩文、英文等视窗平台上运行。并且可以构造Internet应用,为全球关心汉学的学者共享,使古籍数字化的访问更加简便。2、数字化的录入技术。如何快速准确地将古籍原文输人计算机,实现文本字符的数字化,在大型古典文献数字化过程中,是一个必须解决的重要问题,目前主要的录入技术为①古籍扫描在国内图书馆古籍一般不宜用复印机复印。因为复印时会产生的大量热量可达到灼手的程度,不利于文物保护。但是扫描仪的原理、形式与复印机相似,扫描后的古籍纸张温度却与扫描前无甚变化。

          目前市场上的图书馆会采用国产ISCAN非接触式古籍扫描仪能够更好的保护古籍不被破坏,扫描过程不会与古籍有接触led冷光源不会 有任何辐射矩阵式ccd扫描更加清晰快速②OCR光学识别技术。光学字符识别系统是把经过扫描的图形文字转化为计算机编码文字的系统OCR光学识别技术可将古籍转化为文本,可用人工智能方法从图像文件中自动抽取题名、著者、文中插题等检索点,并转化为索引,还可将文内的关键词抽取出来作为检索点。我国古籍整理和研究领域引入计算机始于80年代初期,而真正的古籍数字化却始于90年代,目前我国古籍数字化主要有以两种方式:光盘版和网络版。

      古籍数字化毕竟是一个新兴事物,再加上古籍文献本身的特殊性,使古籍数字化存在许多问题,面临许多挑战。综观古籍数字化市场现状,具体表现在:缺乏统一规划,重复现象严重;文件格式繁多,质量参差不齐;字库设计不规范,文献检索有困难几个方面。根据这些问题我们可以采取以下几种方式进行解决:1、加强馆际协作,建立统一书目。2、完善字符集代码,制定统一的文档格式。3、搞好古籍资源库建设,实现古籍检索网络化。4、注重估计数字化专业人才培养。