得到
  • 汉语词
  • 汉语典
当前位置 :
古籍和电子化漫谈
更新时间:2024-03-19 15:37:06

  从20世纪中期电子计算机面世开始,电子技术的发展和普及,改变了社会活动各方面的面貌。近年来,随着电子技术的发展和个人电脑的普及,电子图书和大型数据库崭露头角,图书编纂、出版和阅读出现了崭新的局面。电子图书存储量大,阅读方便,包含大量古籍的电子数据库具有人力所不能及的强大的处理文字的功能,对学术研究尤其有巨大的帮助。

古籍和电子化漫谈

  一、电子版古籍概说

  电子版古籍有图像版和文本版两种,图像版相当于影印本,文本版相当于排印本。比起纸版古籍,电子图像版具有便于保存、便于使用和便于普及等优点。电子文本版更进一步,可以通过计算机快速检索书中的字词文句,转瞬即可在几亿、几十亿汉字中查找出使用者需要的典故出处;而且可以像处理文稿一样对内容进行各种编辑加工,打印成格式整齐、版面清晰的书页,免去繁琐的抄写之劳。

  根据使用者的需要设计电脑程序,可以把电子古籍资料编制成功能强大的古籍数据库。古籍数据库不仅可以供人阅读,可以进行各种人力所不能为的复杂检索,还可以添加各种实用的工具,附上字典、词典和其他有用的资料,满足使用者随时查阅各种工具书的要求。

  1.图像版

  书籍的电子图像版本质上就是照片,制作图像版跟影印图书一样,把一部书用电子摄像工具拍成一帧帧电子照片,把照片编排起来,制成电子图像文件,就成为电子图像版。图像版图书实质就是电子影印本,特点是存储量大,检阅方便。一百五十来张光盘就可以存储全部三万多册《四库全书》,在电脑屏幕上点击几下,就可以迅速地看到要看的书籍,页面上还可以加批注。

  图像版图书相当于影印本,制作图像版古籍最重要的问题是选择底本,这里涉及版权问题。使用珍本特藏时,需要征得庋藏者同意;使用近年出版的整理本,必须征得整理者和出版者授权。近年大型图像版古籍使用的是现成出版物《四库全书》和《四部丛刊》,这是因为尽管《四库全书》的版本存在问题,但是它毕竟已然经过选择汇集了一批重要的古籍,而且已经广泛流传于世。如果重要的文献、珍藏善本和近年整理出版的古籍都能出版图像版,对一般读者和研究人员都将是莫大的福音。

  2.文本版

  图像版图书是以一个页面为单位,一个页面相当于一张照片。要查找页面上的文字,那就要使用文本版。电子文本版以一个汉字或者一个符号为单位,书页上的文字就像文稿一样,可以按照需要编辑加工,也可以让电脑迅速地查找由一个或几个字组成的字符串,或者拷贝书页中的文字,这是文本数据的巨大优越性。

  制作电子文本版古籍,跟目前排印纸本古籍的排校工作完全相同,首先要把一个个字用人工或电子技术录入电脑。每一个汉字字形在电脑系统中有一个特定的编码,要把一本书的文字全部录入电脑,前提是电脑系统中已经包含那些字形。我们日常使用的电脑系统开始使用的汉字字符集只包含6763个简体字,后来包含繁体字,达到两万多字,目前的超大字符集又增加了4万多字。超出汉字字符集的范围,就要自行造字。

  在文字录入电脑过程中,校对是另一个重要环节。目前的电子文本校对质量还不能尽如人意,需要作为考证依据时,应该找到原书核对一下,以免出现不应有的差错。

  古籍的电子文本都是由纸本古籍的文字转化而成,底本的质量如何,也是重要问题。底本可能涉及版权问题,所以制作电子图书有各种限制。现在除《文渊阁四库全书》全文检索版和《四部丛刊》全文检索版说明所据底本外,其他古籍电子文本,特别是已经标点分段的文本,大都没有说明源出何处。

  3.数据库

  古籍制成图像文件或文本文件之后,经过简单的处理,就可以制成可供阅读的电子图书。如果对文件进行加工处理,重新组织之后,加上一些相关的资料和功能就可以制成古籍数据库。

  古籍数据库为使用者服务,力求数据准确、使用方便和阅览时有赏心悦目的视觉效果,因此首先要对数据进行加工处理。图像数据可以进行页面装饰、颜色配置、格式转换等处理,文本数据要精心校对,确定最恰当的版式和字体形式。

  文本数据的一个重要问题是,需要考虑是否加上标点和划分段落,这跟数据的使用是否方便有重要关系。从便于阅读出发,文本需要标点分段,但是在检索字句时,标点和分段有时有利,有时也有不便之处。

  虽然电子文本文件便于检索,便于作文字处理,但是从纸版本到电子文本中间有各种手续,不仅校对工作跟不上会影响电子文本的正确性,有些古籍有特殊版式或特殊字体也难以如式再现为文本形式。

  既然电子文本由于种种原因难以与底本完本一致,既然学术研究有必要看影印本,于是电子文本和底本图像对照就是优势互补的好办法。《文渊阁四库全书》和《四部丛刊》全文检索版就是如此,它们都包含原书的一部图像版和一部文本版。全文检索使用文本数据,电子文本页面跟底本图像页面版式相同,要核对原书,根据屏幕要求操作,原书同一页面立刻出现在屏幕上。

  文本版和图像版对照可以解决校对质量问题,可以随时看原书,给使用者带来莫大的方便。今后编制古籍数据库,可以推广采用。在汉字平台完善之后,图书电子版普遍开来,版权问题得到解决,古籍数据库在版本方面存在的问题也会逐渐减少。

  数据库需要建立一个控制系统对电子数据进行编排和管理,通过分类系统和检索系统,把所有的数据联系起来,以便使用者用各种方式都能迅速找到需要的资料。古籍数据库检索书籍时,一般有从分类和从书名或作者名查找书籍等几种索书方式。由文本文件构建的数据库不仅能检索书籍,还能在数据库所包含的古书中查找使用者所需要的字句,这就是所谓“全文检索”功能。全文检索功能可以在几秒或几十秒内从数据库包含的一部书、一批书或所有的书中迅速检索出一个字或者一些字的所在,对古籍整理出版和学术研究都有巨大的裨益。除了阅读书籍和检索字句以外,为了使用者方便,古籍数据库还可以附加其他功能。使用者可以对屏幕上显示的页面进行各种加工操作,可以添加标点和批注,标点和批注可以储存在电脑中随时调出来观看或修改,还可以随同页面一起打印到纸上。文本页面以字为单位,除了加标点和批注外,还可以跟电子字典连接,点击某一个字时,显示它的读音和解释,甚至还可以发声读出字音。利用电脑的海量存储和迅速处理能力,古籍数据库还可以附加各种工具书。所有附加的资料都可以通过链接技术组成一个有机的整体,以便随时调用查考,给使用者提供方便。

  二、文献检索

  1.检索方式

  电子文本图书都有在文本中检索词语的功能,一次检索只查找一个字符串是单条件检索;一次检索要同时查找两个或更多字符串是多条件检索,几个字符串之间有逻辑“和”、“或”、“非”等关系。例如,要求查找字符串“苏东坡”,就是单条件检索;不仅要求查找字符串“苏东坡”,而且要求上下文中有“黄山谷”,或者没有“黄山谷”,都是二条件检索。依此类推,则有包含更多条件的检索。

  电子文本版都具有单条件检索功能,古籍数据库则可以进行多条件检索。目前古籍数据库最有用的功能就是对数据库中的文本作全文检索,大型古籍数据库包含许多古籍,作全文检索时可以限定范围。最常见的是范围限定在某一部书或数据库分好的某一类书中,其次是限定书籍的作者,有的还可以自行指定在某几部书之中查找。

  全文检索的结果有几种显示方式:

  第一种是列出检索结果目录,说明要找的字句的所在,要看哪一处再点击哪一处。

  第二种是逐一实时处理,找到一处就停下来,显示文本页面,使用者可以把需要的资料存储起来,然后决定是不是还要继续找下去。

  第三种是制作卡片文件,由电脑把所有符合条件的文本按照使用者指定的条件自行摘录为卡片文件储存起来,卡片文件上的一段段文字跟一摞卡片一样,可以翻阅,也可以作二次检索,过滤掉无关的资料。

  2.检索技巧

  有些资料不能直接检索出需要的结果,这就需要一些检索技巧。一个现成的词语可能有几个不同的说法,古书文句往往也有异文,要查找的字句跟数据库中的文本不能绝对一致时,电脑就找不出来。当把全部词语作为一个字符串查找不成功时,可以化整为零,逐步减少词语,每次只检索很少的几个字,以排除出现歧异的可能。

  检索有关某一主题的资料时,需要选择关键词语反复查询,以便从不同方面获取有关的信息。例如查询人物时,可以从姓名、字号、别称、里贯甚至事迹等不同方面取关键词多次检索,以免遗漏重要的资料。

  查找成语出典时,尤其要注意检索方式,因为许多成语并不是作为一个连续的字符串出现在典源文献中。例如查找“杯弓蛇影”的出处时,在《文渊阁四库全书》数据库中直接查找“杯弓蛇影”并无所得。这时可以试用《国学宝典》数据库的多条件检索,查“杯”和“蛇”同时出现的段落,立刻可以找到《晋书·乐广传》有这个故事。

  此外,目前几个大型古籍数据库收入的古籍各不相同,文本形式和检索功能也有差异。为了检索更有成效,联合使用几个不同的数据库,往往可以补苴单一数据库的不足之处。

  3.古籍整理

  古籍整理的重要工作是标点、校勘和笺注,这些工作要求大量阅读书籍,勤于检索资料。没有电子手段,我们就只能依*“腹笥”包罗万象。然而人生几何,无论怎样博闻强识,面对无涯的书海,也不免有

  鼹鼠饮河之叹。可是电子手段功能强大,像《文渊阁四库全书》、《四部丛刊》、《国学宝典》等大型数据库,都包含大量古籍,有几亿字之多,整理古籍时随时查阅,检索资料,都是举手之劳。

  前辈学者朱彭寿的《安乐康平室随笔》说,开始不知“推潭仆远”的出处,有人提示可能在《前汉书》中,然而多次细检《前汉书》并无所获,后来又查《后汉书》,才找到典源。不惮烦琐竟至如此,足以令人佩服到五体投地,许多前辈的学问都是这种坚毅精神的产物。然而用古籍数据库查“推潭仆远”,不过几秒钟就有结果。

  数据库对古籍笺注工作有巨大帮助,不妨举个例子。姜夔《齐天乐》起调“庾郎先自吟愁赋”,前人撰词话曾指“愁赋”为捏造故典,后来学者查明庾信确有此赋。若用数据库检索,不难发现宋元人诗文多处说到庾信的《愁赋》。《海录碎事》、《记纂渊海》、《韵府群玉》,甚至《渊鉴类函》都有引文,吴兆宜注《庾开府集笺注》卷一即引自《海录碎事》。即使偶然失记,有此检索,也不会失之眉睫。

  4.文本分析

  利用电脑程序,可以对电子文本文件进行多种参数分析,可以统计字词的出现次数和出现频率,可以分析字词的使用情况,可以分析语句的结构特征,人力难以胜任的工作在电子手段却是优游为之,易如反掌。文本的语言文字分析可以显示一篇文字在行文措词方面的特征,对研究文本内容很有帮助。进行文本分析需要特殊的程序,目前《国学宝典》数据库有统计字词出现次数和频率的功能,相信今后的古籍数据库会关注和设计更多的文本分析功能。从字词检索更进一步,就是智能型的查找有关某一问题的资料,也就是所谓主题检索。例如我们要研究某种文化现象或某种思想的起源和演变,就需要作主题检索。主题检索跟计算机的人工智能研究,特别是跟计算机的自然语言理解和知识的形式化表示有密切联系,一时还难以实现。如果利用现有的数据库作主题检索,我们只能拟定若干关键词,反复迂回地在数据库中作字词检索,从中筛选出需要的资料。

  三、古籍数据库说略

  目前古籍数据库的文本校对质量参差不齐,即使经过精校也还是会有错字。严格地说,从古籍数据库获得的资料仅仅可以当做有用的线索,不复核有关的书籍而贸然使用,有时候会酿成大错。此外,由于文本有差错,可能影响检索效果。差错不仅来自文本的录入和校对的失误,底本的版本问题也会导致数据库的文本不可*。例如《文渊阁四库全书》中的《韵语阳秋》把“滕白”误为“李白”,结果检索滕白的作品时就要漏掉一处。

  除了文本质量以外,电子软件程序一般比较复杂,难免出现瑕疵,这就是所谓软件的Bug,现有的古籍数据库软件在程序方面也有这种情况。例如《文渊阁四库全书》全文检索系统标明有简繁联系功能,如果开启这个功能,打简体字可以把对应的繁体字一起检索出来。然而现已发现,有时候打进简体,只能检出一部分繁体的例子。《四部丛刊》全文检索系统则有漏检的情况,页面上赫然存在的字词,却检索不到。我们在赞赏当前一些古籍数据库有诸多优越性时,不能不了解它们偶然也会出现问题。

  古籍数据库有的只收某一部书或某几部书,有的则收一大批书。目前专书数据库有《全唐诗》、《全宋词》、《全元曲》、《二十四史》等全文检索版。下面简单介绍几种包含大批古籍的大型古籍数据库。

  1.文渊阁四库全书

  文渊阁本《四库全书》包含3460多种古书,达7亿字。武汉大学出版社出版的《四库全书原文电子版》,分存于150多张光盘。这个数据库是图像页面,所以不能检索书内的文字,这是它的不便之处。

  上海人民出版社和迪志文化出版有限公司合作出版的《文渊阁四库全书》电子版,有“原文及标题检索版”和“原文及全文检索版”两种版本。“全文检索版”具有全文检索、分类检索、书名检索和著者检索等多种检索功能,可以迅速查到使用者需要的字、词、书名、篇目或作者资料。文本页面的文字基本上跟原书一致,有汉字联系功能,可以按照需要,把有简繁、通假、古今、中日等关系的不同字体联系起来当做同一个字检索。“全文检索版”附有多种有用的辅助工具,还附有可以随时查阅的古汉语字典。

  “全文检索版”最有用的功能是全文检索,要查找一串文字,一般十几秒就能给出检索结果目录。文本版页面跟图像版页面对应,可以随时调出图像页面查阅原书,便于核对文本的正确性。有些古书有奇字异体和特殊版式,转为文本时作了一些处理,跟原书不尽一致,所以有时有必要查阅原文图像。

  2.四部丛刊

  北京书同文数字化技术有限公司研制的《四部丛刊》原文及全文检索版,是《文渊阁四库全书》原文及全文检索版的姊妹编,制作方法、功能及使用方法有许多相同之处。《四部丛刊》检索字句也是给出检索结果目录,跟《四库全书》不同的是检索目录列出每一个出处的文字摘录。

  3.国学宝典和古籍文献系列数据库

  《国学宝典》是北京国学时代文化传播有限公司编制的大型古籍数据库,收书约3000种,4亿多字。《国学宝典》使用简体字,有标点,分段落,检索方式有特殊之处:第一,检索范围可以是一部书或其某一篇章,也可以选取其中若干书籍自组一类;第二,检索条件可以是一至四个字符串,可以要求它们出现在同一句或同一段中;第三,检索结果可以逐一实时处理,也可也自动制成卡片。此外,《国学宝典》可以在所收文献内统计字、词、短语的出现次数和出现频率,这也是一项有用的功能。

  北京国学时代文化传播有限公司与商务印书馆联合,已经启动《中国历代基本典籍库》大型数据库系列光盘出版工程,预计分为“先秦两汉魏晋南北朝卷”、“隋唐五代卷”、“宋辽金元卷”、“明清卷”等大型数据库。

  结束语

  电子化操作有节省空间、功能强大和便于使用的优点,作者可以利用电脑编纂书籍,出版者可以利用电子手段出版电子书籍。如果把一部书的数据存储在电子系统中,书籍就可以实现现场制作。电子化技术正在给书籍编纂、印刷、出版工作带来革命性的变化。

  最后还要说明,网络上还有大量古籍资源可以供我们使用。许多图书馆的网站都有古籍资料,现在我们随时可以在中国国家图书馆的网站上检索馆内的藏书目录,跟过去查阅纸本卡片相比,有天壤之别。丰富多彩的电子技术正在飞速发展之中,值得古籍整理和出版工作者关注。

  电子化对古籍整理和出版有重大影响,这体现在印刷出版工艺技术方面,也体现在古籍整理和学术研究方面,这篇短文仅仅介绍了几个侧面而已。应该承认,目前中国古籍电子化还是刚刚起步,大规模的数据库也是近年才陆续面世,方兴未艾的势头展现了多方位的广阔前景。

百百课专稿内容,转载请注明出处
不够精彩?
最新更新
PC端 | 移动端 | mip端
百百课(baibeike.com)汇总了汉语字典,新华字典,成语字典,组词,词语,在线查字典,中文字典,英汉字典,在线字典,康熙字典等等,是学生查询学习资料的好帮手,是老师教学的好助手。
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。

邮箱:  联系方式:

Copyright©2009-2021 百百课 baibeike.com 版权所有 闽ICP备2021002822号-13