得到
  • 汉语词
  • 汉语典
当前位置 :
关于分词规范的探讨
更新时间:2024-03-19 10:23:31

  关于分词规范的探讨[i]宋 柔

关于分词规范的探讨

  《语言文字应用》推出中文信息处理专栏,并在第一期发表关于自动分词的文章,极有意义,对引起争鸣、加深研究很有好处。下面提出本人的不成熟的看法,供进一步讨论。一 现行分词规范中的问题

  现行分词规范GB13715(下面简称“规范”)虽经过多次讨论才定稿,但仍有一些问题。除了在该规范编制说明中解释过的(有些解释难以令人满意)以外,再举出一些:

  (1)以词类作为规范分词单位的基础。词类系统本身尚无公认标准,如何将词入类也尚无规范可循。如,许多人认为副词是封闭的类,但有人指出某些词如“全速”,“稳步”,“大力”等能用做状语且只能用做状语,应归入副词,这样一来副词就不封闭了。

  (2)动词的重叠形式。规范要求把AAB形式的动词切成AA/B,有时并不合理。如“散散/步”,“开开/心”,切开后语义上无法解释。

  (3)语缀。职务名称“教育局长”,语义上理解为“教育局之长”,但按照规范只能切成“教育/局长”,不但不合语义,且同动宾结构词组相混。

  (4)缩略词语。缩略词语如“中葡关系”,“巴以会谈”,“穆克两族”,“陇海线”,“京九铁路”,“科工贸集团”、“老少边穷地区”等切分原则不清楚。

  (5)专名。国名不切分,一般机构名要切分,这有可能造成两难困境,因为国家有合法性等问题。二 不同的应用系统对分词单位有不同要求

  分词规范难以统一,重要原因之一是不同的应用系统对分词单位有不同的要求。例如:

  (1)以词为单位的键盘输入系统为了提高输入速度,把一些高频词组(甚至只是频繁接续的几个字)作为输入的词单位。

  (2)校对系统将含有易错字的词和词组作为分词单位。此外,校对系统要求分词单位较大,以便检查被校对文章内的词间二元接续关系是否正确。

  (3)简繁转换系统收集简繁对应不唯一的字所组成的词和词组,以便在词语层面上消除转换的不确定性。

  (4)语音合成系统收集多音字所组成的词和词组,以便在词语层面上确定字的发音。

  (5)检索系统的词库注重术语和专名,且要求分词单位较小,以便提高查全率。

  (6)机器翻译系统的汉语词库收词要考虑同英文词的对应。三 对分词规范的设想

  书面汉语是字的序列,词没有明确边界。硬要把汉语的字序列切分成类似英语的词的序列,即简单地在字串内加一些分隔符,会遇到无穷无尽的两难问题,对于实用系统的开发会起阻碍作用。与其削足适履,不如从汉语的实际出发,放弃词的刚性概念,制定一个柔性的、带词内结构的规范。我们初步设想该规范包括如下四部分和一个附则:

  (1)分词单位下界,即哪些情况不能切开。分词单位可大可小,我们把作为下界的分词单位称作基本词。许多情况下,基本词就是GB13715所规定的分词单位,但对GB13715中难以操作的和不统一的规则进行修改,总的原则是能切开的尽量切开(这里谈的是基本词的切分原则,不是分词单位的切分原则)。比如:动宾、动补、偏正结构中可扩展的一律切开,二字以上词语的前加成分、后加成分同词干一律切开,表示儿化音的“儿”同前面的词一律切开,二字以上地名的通名与专名一律切开,国家名同一般机构名一样切分,表示月份、星期、阴历日期的“月”、“星期”、“礼拜”、“初”同数字切开,重叠的动词一律切开,表示概数的并列数字要切开,不成词的并列缩略成分要切开,等等。

  (2)分词单位上界,即哪些情况必须同其相邻成分切开,如标点符号同其相邻成分之间,句内主语谓语之间,结构助词“的”、“地”与其后邻成分之间,多数连接词与其相邻成分之间,等等。

  分词单位上界应允许下列结构成为一个分词单位(但不是必须合起来):简单动宾、动补、形宾、形补、偏正结构,动词和形容词的各种变形结构(AAB,A了一B,ABAB,AABB等),时间短语,处所短语,数量名短语,数量短语,数词短语,缩略语(包括部分缩略),地名上下级全称,人名全称,机构名全称,商品名全称,术语全称,词缀所辖范围,等等。

  (3)上下界之间的分词单位及其内部结构。在上下界之间,分词单位的大小允许有较大的灵活性,只是要求组合型歧义字段和交集型歧义字段不能错切,要求每个分词单位都应是一个完整的语法成分,并给出内部结构。对分词单位内的结构划分方法,应分别不同情况给出若干规则。机构名、装置名、产品名等应该在定名时由权威部门或权威人士给出名内结构,如国内机构名由该该机构或其上级管理部门给出名内结构,国外机构应由有关部门在定出其汉译名的同时给出名内结构。

  (4)基本词表。配合下界,应有一个基本词的表,收集内部不可切分之词。非专名、非术语的基本词应尽量收全,专名中可列举的应专表列举,常用基本术语应专表列出。

  附则:对于支持上层应用系统的分词系统,若上层应用系统没有提出需要,可以不给出分词单位的内部结构。

  此外,考虑到语言学、信息处理方面的需要。可另有一个不属于基本词的常用词语表,表内的词语应给出内部结构,入表与否的基本依据应是频率。各个面向应用的分词系统可以有自己的词库。各种词表、词库的格式设计问题属于语言学研究和软件接口方面的问题,无须在规范中论及。

  下面给出若干分词单位内部结构实例:

  (全 速),(压 倒),(性 教育),((不 能)不),(前 不久),(午 后),

  ((十 (七 八))岁),((中 小)学) ,((京 九)铁路),((科 工 贸)集团),

  (峨眉(大 酒楼)),((中华 人民 共和国)((地质 矿产)部)(地质 科学院)),

  (香港 (特别 行政区)),(牡丹 江),(((古 生物)学)家),((教育 局)长),

  ((((世界 战争)((不 可)避免))论)者),(经常 性),((多 极) 化),

  (计算 机),(中央 (处理 器)),((((正 负)电子)(对 撞)) 机),

  (司马 相如),(乔治 · 布什),((散 散)步),((散 了 散)步),

  (五 分之 一),((一九九七 年)(二 月)((二 十 四) 日)),((第 一)名),

  ((哪 管)(三 七(二 十 一)))。(宋柔 北京工业大学计算机学院)

  [i] 本文工作得到国家自然科学基金,国家863计划,北京市自然科学基金,北京市教委研究发展基金的支持

百百课专稿内容,转载请注明出处
不够精彩?
最新更新
PC端 | 移动端 | mip端
百百课(baibeike.com)汇总了汉语字典,新华字典,成语字典,组词,词语,在线查字典,中文字典,英汉字典,在线字典,康熙字典等等,是学生查询学习资料的好帮手,是老师教学的好助手。
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。

邮箱:  联系方式:

Copyright©2009-2021 百百课 baibeike.com 版权所有 闽ICP备2021002822号-13