当前位置: 首页 > 范文大全 > 优秀范文 >

文献数字化技术在自建数据库中的应用策略研究

发布时间:2022-03-23 09:18:06 | 浏览次数:

〔摘 要〕从文献数字化实现过程出发,简述了文献数字化技术,并提出自建数据库数字化技术的选择原则,然后就文献数字化技术在自建数据库过程中的应用策略进行了探讨。

〔关键词〕自建数据库;文献数字化;数字化技术

〔中图分类号〕G259 〔文献标识码〕B 〔文章编号〕1008-0821(2009)12-0135-04

Application Strategy of Literature Digitization

Technology on Self-built DatabaseWang Tianliang

(Maoming Library,Maoming 525000,China)

〔Abstract〕Starting from the process of realization of Literature digitization,this paper gave a brief description on literature digitization technology.Besides,some principles to choose for the Self-built database in digital technology were proposed.Then a discussion on the application strategies of literature digitization technology on the self-built database was made.

〔Keywords〕self-built database;literature digitization;digital technology

随着计算机技术和网络通信技术为核心现代信息技术迅猛发展,互联网成为人们获取、处理和交流信息的主流渠道。21世纪的信息世界是“数字图书馆”占主导地位的时代,是整合所有信息机构的资源和功能,建立一个包罗万象的信息仓储,提供综合的公共信息访问,使用户能够通过互联网高效方便地获取所需信息。图书情报、博物展览、档案管理、影视等信息机构长期以来担负着知识储备、知识开发的重任。它们在数字时代来临时迫切需要加强资源数字化建设,充实信息内容;也会以无可比拟的馆藏优势和专业信息开发能力,成为信息数字化建设的主力军。随着,计算机、扫描仪、数码摄影机、视频采集卡等设备日益普及,以及多媒体信息处理、信息压缩与传递、信息抽取、数据挖掘、信息检索、自然语言理解等技术的应用,信息机构除了购买商业化数据库外,逐渐加快开发自身特色资源——自建数据库,将馆藏核心文献或特色文献转化为数字化信息,实现网络传播、信息共享。如各图书馆以地方文献、专题特色文献、古籍等数字化建设作为网络环境下新的定位与发展目标。档案机构将建立“数字化档案查询系统”作为保护珍贵档案原件、提高服务质量的必要手段;也是实现政府公文系统,达到资源共享的重要途径。“数字博物馆”以数字形式对文物的各方面信息进行收藏、管理、展示和处理,实现通过互联网为用户提供数字化的展示、教育和研究。视频信息机构更是将自己的资源数字化成流媒体实现网络点播,迎合互联网用户的需求。然而,在政策开放、技术成熟、市场需要的情况下,许多信息机构在自建数据库过程中出现不少问题,如进展缓慢、耗资巨大、效率低下等现象。导致问题产生的原因是多方面的,究其主因在于信息机构自建数据库不仅存在资金、人才等因素,也存在对数字化理论、标准及技术研究不够了解。因此,笔者从信息机构自建数据库实践出发,分析和探讨了文献数字化技术及其应用策略,希望对即将或正在自建数据库的工作人员有所帮助。

1 文献数字化技术概述“文献数字化”是利用现代信息技术对传统介质的文本(包括印刷图书)、图形、图像、声音、视频等信息进行格式转换和压缩处理,使其转化为数字信息并存储;然后通过计算机技术和互联网为依托进行信息传递,实现检索,为本地和网络读者提供信息服务。此定义包含有三层含义:一是文献转换处理,即模数转换过程;二是信息在计算机承载过程;三是信息用于读者检索过程。文献数字化的不同阶段包含不同的数字化技术。文献模数转换过程包括信息加工与处理技术以及相关的格式及标准,是提高数字化工作质量的关键技术;信息的承载过程包括数字化信息平台技术、信息存储技术、信息压缩技术,是数据信息得以存储和长期保存的保障技术;为实现读者信息检索包括文献标引、检索、安全技术,是数据信息得以交流、发布保障技术。文献数字化技术复杂多样,每一过程中的数字化技术都包括众多的细小技术,信息机构要充分考虑到数字化的对象及单位的实际情况来选择和应用合适的技术。

2 自建数据库数字化技术选择的原则

2.1 先进性原则采用的技术应该先进的,并遵循国家或国际标准,保证数字信息在较长时间内不被淘汰。

2.2 实用性原则采用的技术要具备较高的性能,适应自建数据库建设和用户利用的需求;同时考虑到经费投入,有效地控制成本。

2.3 易用性原则采用工作人员易于操作和管理的技术,管理人员能较为方便的进行系统的配置、管理和维护工作。

2.4 安全性原则采用稳定可靠的成熟技术,任何条件下都可以保证数据的完整性、保证数据不损毁、不丢失,满足关键任务的要求;确保未经授权的数据不被访问、浏览、读取、写入或者执行;确保传输过程中的数据不被窃取、篡改。

2.5 开放性原则适应多厂商、多平台和系统的持续性发展,能适应自我开发需求。

2.6 兼容性原则解决不同数字平台、软件和信息无法兼容的难题,使跨行业、跨学科的数字化馆藏能够实现共享,也使用户能轻易获取数字库信息的保障。

2.7 扩展性原则能有效地支持多系统多平台及多种应用的异构处理环境,能在一个系统扩展多个多类型专题数据库。

2009年12月第29卷第12期文献数字化技术在自建数据库中的应用策略研究Dec.,2009Vo3 自建数据库文献数字化技术的应用策略

3.1 信息处理与加工技术的应用策略

3.1.1 文本数字化技术的应用策略信息机构拥有的信息有不同的类型,对各种信息的模数转换技术和标准也不尽相同。因此,信息机构应根据自己信息的类型选择最为适合的数字化技术。目前,文本(包括印刷图书)信息仍是信息机构的主要的馆藏资源,是数字化对象最多的文献形式。文本信息的数字化技术常见的有键盘录入、电子笔录入、语音输入、扫描与OCR识别等。其中以OCR技术应用最广泛,较为流行的OCR软件有汉文、清华紫光、尚书一号、智慧人等。文本信息特别是印刷型文献的数字化技术还有一种全息数字化技术——具有采集全部信息、摘编文本、全面检索能力3个方面优越性的数字化技术。此项技术目前尚未完全成熟,且成本高昂,一般的信息机构很难操作。

3.1.2 图形、图像数字化技术的应用策略图形数字化技术有两种途径:一种是用AutoCAD重新绘制,形成可以作为电子文件直接处理的矢量图形数据;但此方法工作量相当大,大部分工作属于重复劳动;另一种方法用扫描仪扫成光栅图像输入计算机,这种方法工作量小,正确率高;但人们无法直接对光栅进行编辑,不是真正的数字化图纸。自建数据库数字化方法选择中,可结合这两种技术,采用CAD软件和具有光栅编辑、矢量混合编辑或全自动矢量化功能的图形处理软件对图形进行数字化。图像信息数字化技术常用有点处理、区处理、几何处理等方法,诸如流行的图像处理软件Photoshop、Fireworks、Coredldraw、Mapshop等基本上都能整合这些方法;同时可以去除噪声、对比度扩展、灰度变换、伙彩色处理等调节手段来提高清晰度,提高图像质量。如善本古籍、脆化档案、古生物化石等数字化几乎需要完全取代原件效果,数字化技术要求极高。

3.1.3 音频、视频的数字化技术的应用策略音频信息、视频信息数字化技术是利用音频、视频卡,通过采样量化把传统磁性载体或光电载体上的模拟音频信号转换成计算机可以识别与处理的音频、视频数据文件。在音、频信息实际模数转换操作时,根据采样精度、采样频率、声道数需要选择音频信息采集质量,消除声像信号产生、获取和传输过程引入的失真和干扰,使之尽可能逼真地再现声音和景象;尽可能除去无用信息,突出主要信息。如以口传文献形式代代相传的艺术和技艺,为保持语音档案的原始记录性,必须尽可能的保持声音的真实性,可采用直接生成的模数转换技术,并保证经过软件处理后,能保证声音文件的音质、音效得到很好地优化。课堂录像、音乐演唱会专辑、具有历史意义的时期电影电视节目和重要的历史人物言行的录像等数字化可以选用一些含有增强、降噪的技术。如对一些复杂的对象,如濒临失传的珍稀语言文字女书,需要采用多媒体技术,一方面以数字影像技术形成全文图像记录保存文献的外观,另一方面需要以音频文件记录保存以女书颂读、传唱的诗歌和歌曲。

3.1.4 三维模拟技术的应用策略一些信息机构在对馆藏资源数字化的基础上结合DEM、3DGIS、地理信息系统、全球定位系统等计算机图形图像技术,将复杂的城市规划、建筑结构、城市规划、地理信息、文物、自然景观等加载声音、照片、影像、动画等数据,用户通过交互操作,可动态地、多视角地、多层面地浏览和欣赏实物、实景、实事。这种技术称为三维模拟技术,较适宜于博物馆、展览馆、城市规划、地理测绘等信息机构建设数据库采用。对于三维模拟技术的应用,信息机构根据经济和自身现有的技术基础来综合考虑。

3.2 信息承载技术的应用策略

3.2.1 数字化资源系统平台选择数字资源平台是满足信息机构自行建设数字资源的需求,它可以通过收集有价值的信息,进行模数转换、元数据加工,提供高质量存储、管理及在线查询服务的一种功能复杂的专业性软件。选择优秀的数字化平台是自建数据库时文献数字化一个关键问题。常见的一种技术方法是开发或购买基于ASP.NET技术的有后台管理的网站型数据库。如Xplus数字报刊制作发布系统、中国船泊数据库、冼夫人信息网等。此类平台可完全根据自己数据库内容要求构建,可塑性强;信息的加工及方法也可根据自己采用适合的技术。但此类平台信息类型较单一,自动检索功能差,无自动标引等功能。自建数据库单位如果仅从公益性和资源种类单一性出发,选择此种平台则较为合适。第二种就是选择技术成熟的数字资源管理系统,如比较常见的自建数据库平台有TRS、TPI、CDI、CGRS、FTR、万方、方正渊博等。这些数字资源系统具有完备的文献数字化加工系统、数字资源管理系统和发布系统,采用国内外先进的图书馆数字化的模式,遵循国际标准、可升级、可扩展,足以从技术上保证自建数据库的生命力和竞争力。

3.2.2 信息存储技术的应用策略数字化资源存储的是大容量数据,国外有人称之为“数字图书馆”的定时炸弹,是事关数字图书馆存亡的重要问题。目前,数字化信息存储技术有单一磁盘存储技术、磁带备份存储技术、RAID技术、DAS、NAS和SAN技术。当前互联网环境下,单个硬盘存储技术已完全不能满足数字化信息在线存储容量的需要,RAID技术在自建数据库存储应用较为广泛。DAS因对网络带宽的依赖程度低,价格相对较低,安全性较高,维护成本较低,是图书馆等信息机构自建数据库存储的主流选择模式;但其不利于集中管理和共享。若一些信息机构出于信息保密和无需上网共享的因素,DAS则是较为理想的数据存储选择。NAS具有较好的多平台共享能力,强大的数据集中能力、方便的管理和可扩展性,相对SAN存储投资的高性价比,可成为中小型信息机构自建数据库采用的存储技术,但不适合大型数据库的应用。SAN是独立于服务器网络之外的高速存储专用网,实现了真正高速共享存储的目标,但投资成本大,较难成为一般信息机构自建数据库的存储技术。自建数据库应用存储技术必须考虑高效利用存储空间,方便传输的前提下又不影响存取速度与利用。一些信息机构已有完善的数据存储系统,自建数据库时只需在现有的存储系统中构建数据库。因此,信息机构在自建数据库时,应该根据经费、自身存储系统、网络共享平衡等因素有效地应用存储系统。

3.2.3 信息压缩技术的应用策略自建数据库所涉及的文献类型有文本、图像、音频、视频等,且面临的数据量是呈线性增长的。信息压缩的目的是减少数据冗余,从而节省存储和传输成本。根据自建数据库文献类型不同,压缩技术也不尽相同。如文本、实验结果、统计数据、二值图像、医疗、遥感图像或者用于法律证据的图像需采用无损压缩技术;特别对古籍、历史名画等文献数字化,更需要选择图像信息无损压缩技术,以保证这些文献的原貌和科学研究价值。有损压缩主要用于连续数据经过离散化之后的压缩,例如图像、视频和音频数据等;但也要在在存储空间与音(视)频失真度之间取得平衡。但如对珍贵的音(视)频资源,应选择无损压缩技术,其在线存贮宜选择.wav格式,脱机存贮宜选择CD格式;对需要长期保存的一般资源,可视具体情况选择失真度较小的有损压缩技术。

3.3 信息标引与检索技术的应用策略

3.3.1 采用元数据标引,遵循统一的标准和规范元数据是指描述某种类型的资源或对象的属性,并对这种资源进行定位和管理,同时助于数据检索的数据。元数据既是数据整合管理工具,也是一种可以直接被用户利用的数据资源,是联接数据、用户和信息管理者三方面的纽带。元数据越丰富,查询的能力就越大,从网络或系统中发现和获取新价值的机遇也就越多。目前我国对中文元数据的研究已取得了相关成果,经过不断研究和创新,制定出了相关标准和格式。如“基于XML的电子文件格式”、“中文元数据库方案”、“数字式中文全文文献通用格式”、SGML标准等。自建数据库时,不同类型文献数字化技术应选择具有前瞻性、较为先进的标准和格式,避免重复建设。在文献标引中,自建数据库单位必须选择统一的标准、规范,如元数据定义、各种代码标识符的定义标准、各种文献类型描述标准等,真正达到资源共建共享目的。如需要数字化的馆藏资源简单有序,专题不多,对其质量要求较为基础,只侧重考虑读者利用,数字化馆藏的元数据可采用SGML标准。如果自建数据库数字化的藏资源数量十分庞大,且数字化项目规划较为完善,要求建立易存取、易管理、易检索、易访问的藏品数据库,就必须创建多层次、多角度的元数据机制。在开展资源数字化工作之前,自建数据库系统设计者应创建有效的元数据采集机制,将各种的元数据库都联合为一体,可以使不同类型原始文献被赋予一致的“数字属性”,有助于文献内容在网络空间内得以高度整合,从而实现无障碍的交流与互动。如建立地方文献数据库则要构建和采用地方文献通用的元数据,以支持对数据库的整合管理与存取。如建立古籍数据库则要采用通用的古籍元数据等。

3.3.2 检索技术的应用策略自建数据库的数字化信息资源能否提供有效、快捷、智能等检索功能是关系到数据库的质量的关键。传统的检索方式有书目检索、联机检索(布尔逻辑检索、字段限定检索、截词检索)。目前,文本的全文检索技术已达到了不受语种限制的全文匹配水平。对图像、音频、视频的检索技术是基于内容的检索。如对图形、图像按其颜色、灰度、纹理和位置进行查询,对语音按其曲调、旋律进行查询。基于内容的图像、图形、多媒体检索技术仍处于不断研究阶段,其检索方式有:基于文本的查访及浏览方式、基于实例的查询方式和徒手草图查询方式。MPEG-7是一个初具成熟的基于内容的多媒体技术,它对各种不同类型的多媒体信息进行标准化描述,并将该描述与所描述的内容相联系,以实现快捷有效的检索。信息机构自建数据库时,对文本除提供书目检索、联机检索的检索技术外,重点应提供全文检索方式;对于图像、图形、多媒体采用目前技术成熟、易操作应用的检索技术。

3.3.3 安全技术的应用策略信息安全技术是保障信息安全与保密的必要措施。信息机构在自建数据库时首先需要对数字化馆藏的价值、保密程度和面临的安全威胁进行全面的风险评估;其次根据自身需要的安全服务种类和级别,选择相应的安全机制,然后集成先进的安全技术,建立全方位的安全系统。为了使信息在网络中获得安全、高效的传输,自建数据库时应采取控制措施,较常用的有加密、信息隐藏、防火墙、虚拟专用网、反病毒等安全保障技术措施。同时,加强数据库使用的权限管理、备份及其定期维护。如有关数字化权益保护方面,自建数据库可以采用加密与数字签名技术防止在网络传输中数据被窃取;采用数字水印技术避免文本非法复制和被盗用等。总而言之,信息机构在自建数据库时,应借鉴他人积累的经验和教训,根据应该需要、资源特点、预算、可建库数量、用户等因素,选择合适的文献数字化技术,并进行科学的实施。

参考文献

[1]王兰成,敖毅.数字图书馆技术:信息集成与信息检索[M].北京:国防工业出版社,2007.4:23-67.

[2]田捷.数字图书馆技术与应用[M].北京:科学出版社,2002.6:51-106.

[3]潘芹.高校中小型图书馆数字化进程与文献信息资源建设探讨[J].中国西部科技,2008,(24):92-94.

[4]工岚.数字图书馆自建数据库方案探讨[J].科技信息,2008,(24):72-73.

[5]吴恒忆.中小型图书馆自建特色数据库系统平台的比较[J].图书馆工作与研究,2008,(1):54-56.

[6]孙长虹.高校图书馆自建数据库中的阻滞因素与对策[J].现代情报,2008(4):39-41.

[7]叶吉波.示范院校图书馆自建数据库模式研究[J].温州职业技术学院学报,2008,(2):23-25.

[8]袁红军.文献数字化实用系统分析与选择[J].新世纪图书馆,2005,(6):51-53.

[9]史玉霞,林桂娜.数字图书馆印刷型文献数字化加工系统比较研究[J].情报杂志,2006,(10):14-16.

推荐访问: 数字化 数据库中 自建 文献 策略
本文标题:文献数字化技术在自建数据库中的应用策略研究
链接地址:http://www.yzmjgc.com/youxiufanwen/2022/0323/35625.html

版权声明:
1.赢正文档网的资料来自互联网以及用户的投稿,用于非商业性学习目的免费阅览。
2.《文献数字化技术在自建数据库中的应用策略研究》一文的著作权归原作者所有,仅供学习参考,转载或引用时请保留版权信息。
3.如果本网所转载内容不慎侵犯了您的权益,请联系我们,我们将会及时删除。

版权所有:赢正文档网 2010-2024 未经授权禁止复制或建立镜像[赢正文档网]所有资源完全免费共享

Powered by 赢正文档网 © All Rights Reserved.。粤ICP备19088565号