摘 要:现代汉语存在着许多歧义短语结构,仅依靠句中词性标记无法获得词与词之间正确的搭配关系。本文研究了大量包含歧义的短语实例,分析了计算机处理汉语结构时面临的定界歧义和结构关系歧义问题,在已有短语结构规则的基础上归纳出了七种结构歧义模式,提出了分析歧义模式的关键是四种基本搭配信息的判断,并实现了基于语义知识和搭配知识的消歧算法。对887处短语进行排歧的实验结果表明,处理短语结构的正确率由82.30%上升到87.18%。
关键词:计算机应用;中文信息处理;现代汉语语义知识库;搭配词典;短语歧义排歧
中图分类号:TP391 文献标识码:A
1 引 言
在现代汉语信息处理研究中,句法分析是重要的一个环节。由于汉语没有严格意义上的形态变化,不同词类之间的界限不太明确,这使得汉语句法分析变得极为困难。自然语言的歧义问题,实质上是意义与形式之间的矛盾问题。同一形式与不同的意义相联系,就必然会产生歧义。传统语法认为歧义包括词汇的多义歧义和结构的同形歧义。在自然语言处理中,同形歧义是一个不能回避而且也无法回避的问题。目前国内大部分学者都在从事这方面的研究。朱德熙教授在《汉语句法中的歧义现象》一文中提出了“歧义格式”这个概念。他认为,句子的歧义“是代表了这些句子的抽象的‘句式’所固有的”,因此,他主张用“歧义格式”来概括语言中的同形歧义结构。歧义格式所反映的类别的歧义,在具体的语言中有时存在,有时并不存在。当把具体的单词代入到歧义格式内的范畴符号(也就是类别符号)中,而使歧义格式实例化为具体的句子和词组吋,有的句子或词组中仍然可以保持歧义格式原有的歧义,而有的句子或词组中,歧义格式原有的歧义却消失了。从歧义格式的内部组成成分特征、歧义对外造成的影响以及模式歧义和实例歧义的对应关系三个方面较全面地考察了现代汉语短语结构定界歧义的不同类型,从整体上将汉语短语结构定界歧义分为三类,即:①包含终结符的歧义格式与不包含终结符的歧义格式,②外显型歧义格式与内含型歧义格式,③真歧义格式、准歧义格式与伪歧义格式。本文将分析一些固定的范畴为伪歧义的歧义模式,并讨论如何利用有限的语义信息资源对句法分析器分析错误的包含这些短语歧义模式的句子进行消歧。
2 研究背景及资源
中文信息处理按照处理对象的层次由低到高可划分成词汇、句法、语义等三个层面并将高层面问题建立在低层面问题的结果集上逐层解决问题。目前汉语句法分析主要有两种方法:基于规则模型和基于概率模型。但无论使用哪种亦或结合两种进行句法分析,大多仅依靠句中词的词性标记展开进行,局限于词汇与句法信息层面。而对于汉语,句法分析中的歧义现象仅依靠从低层面中获取的信息是无法解决的。本文试图在句法分析中引入语义信息以排除大部分靠词汇信息无法处理的歧义来提高句法分析的正确率。语义排歧需要一个从语义层面描述词语关系的知识库。本文综合利用现代汉语语义知识库和搭配词典进行语义排歧。
清华大学陈群秀和其他单位联合研制的现代汉语语义知识库是本文研究的主要语义资源。尹一瓴在理论层面上简单分析了使用现代汉语语义知识库进行句法分析的基本方法。他的研究只是针对具体的分析方法,并没有一个统一的处理框架。尹一瓴的方法只能处理简单短语结构,并且其理论还没有应用到真实的大规模数据集中。本文在其研究基础上,进一步研究在句法分析中引入语义信息,其主要为动词、形容词、名词之间的配价模式,以提高句法分析准确率的方法。本文通过分析不同的歧义模式,提炼出四类基于语义分析结构搭配操作,这样就可以将关于各类不同的歧义现象的分析过程分解为这些操作的组合,从而总结出一种基于语义分析结构歧义现象的统一的处理框架。在研究短语结构歧义模式消解过程中,本文使用了清华大学周强老师研制的汉语匹配分析器作为研究基础,利用语义知识库和搭配词典,在其中间结果的基础上对最终生成的句法树加以改进。搭配词典又分为动词名词搭配词典(动宾搭配词典),名词动词搭配词典(主谓搭配词典)和形容词名词搭配词典(定中搭配词典)。本文排歧对象为周强树库中25 248个句子资源。在句法分析中引入语义信息的目的是解决仅靠词汇的词性信息无法处理的句法歧义现象,因此本文以汉语匹配分析器无法正确处理排歧的句子为研究目标,通过分析总结出普遍存在的难以解决的歧义模式并针对这些歧义模式设计解决方法。本文研究工作假定汉语句子的分词和词性标注正确,在这个前提下集中分析短语句法结构。
3 歧义模式分析
3.1 歧义模式提取
为使排歧具有针对性,分析汉语匹配分析器无法正确排歧的句子,总结出七种歧义模式:
1.VNUN模式(verb+firstNoun+u+seeondNoun)
句例1:吃/v饭/n的/u地方/n
句例2:提高/v档案学/n的/u水平/n
具有“VNUN”形式的短语,其可能构成定中结构,例如:[[吃/v饭/n]的/u地方/n];又可能构成动宾结构,例如:[提高/v[档案学/n的/u水平/n]]。判断VNUN模式短语结构的关键在于判断动词V与之后哪个名词构成动宾结构的概率更大。
2.VAN模式(verb+adjective+noun)
句例1:形成/v多/a部族/n
句例2:踢/v碎/a热水瓶/n
具有“VAN”形式的短语,其中形容词可能与名词构成定中结构,例如:[形成/v[多/a民族/n]];又可能与动词构成动补结构,例如:[[踢/v碎/a]热水瓶/n]。判断VAN模式短语结构的关键在于判断动词V是否可接补语A以及形容词A是否可做名词N的定语。
3.NV模式(noun+verb)
句例1:在燕大/n工作/v
句例2:原子弹/n爆炸/v
具有“NV”形式的短语,可能构成主谓结构,例如句例2,又可能构成非主谓结构,例如句例1。判断NV模式短语结构是否为主谓短语关键在与判断N是否可以做V的主语。
4.VO模式
句例1:倾听人民的意见和建议
句例2:探寻/v病因/n
具有V+O形式的短语,判断短语。的中心词是否可做动词V的宾语。
5.PNUV模式(preposition+noun+u+verb)
句例1:对/p政策/n的/u出台/v
句例2:对/p祖国/n的/u热爱/v
具有“PNUV”形式的短语,其可能构成介宾结构,例如:[对/p[政策/n的/u出台/v]];又可能构成定中结构,例如:[[对/p祖国/n]的/u热爱/v]。判断VAN模式短语结构的关键在于判断名词N是否可做动词V的主语。
6.ANN模式(adjective+firstNoun+secondNoun)
句例1:新/a技术/n革命/n
句例2:重要/a经济/n思想/n
具有“ANN”形式的短语,其可能构成定中结构名词短语修饰名词,例如:[[新/a技术/n]革命/n];又可能形容词修饰定中结构名词短语,例如:[重要/a[经济/n思想/n]]。判断ANN模式短语结构的关键在于判断形容词修饰哪个名词的概率更大。
7.VVO模式(firstVerb+secondVerb+object)
句例1:服务/v送/v温暖/n
句例2:开始/v发行/v人民币/n
具有V+V+O形式的短语,其可能构成述宾结构,再与第一个动词组成双重述宾结构,例如句例2;又可能第二个动词与后面的宾语组成述宾结构,再与第一个动词组成连谓结构,例如句例l。判断VOO模式短语结构的关键在于判断第一个动词后是否可以直接后接宾语。
已有的歧义模式中显示述语动词在汉语中居于至为重要的位置,是整个句子的核心并制约其余的句子成分,句子的表层结构可看作由述语动词的论旨网格投射而成。集中分析句中动词与受其制约的名词形成的歧义现象,对句法分析正确率的提高起关键性作用;另外句中形容词与其修饰的名词所形成的歧义现象,也对于句法分析的子模块的正确率有积极的作用。
3.2 解决方案
上述七种短语结构歧义模式都可看作对应实例无歧义的歧义结构,一般可通过引入其组成词汇单元间的句法或语义约束条件来处理。可以看到解决这些大部分短语歧义的关键在于两项成分的搭配问题。为了解决这些“简单外显型歧义格式”,需要考虑以下四种基本语义搭配信息:①动词与名词之间是否构成动宾结构,②动词与形容词之间是否构成动补结构,③名词与动词之间是否构成主谓结构,④形容词与名词之间是否构成定中结构。通过四类基本语义信息的判断结果,可以判断出绝大多数歧义现象模式的短语的正确句法结构。以下,本文将在算法的章节里重点讨论如何利用这四种基本的搭配信息来解决提出的七种短语结构歧义模式。
4 算 法
清华大学周强研制的汉语匹配分析器将进行过分词和词性标注的句子作为输入,首先对输入的句子进行括号匹配从左向右进行扫描,自底向上搜索匹配句子的句法成分并将经过括号匹配得到的所有句法成分与扩展路径存贮在压缩共享森林(PSF)中,然后对括号匹配过程中所发现的所有待扩展路径进行基于概率评分模型和基于优先排歧等有效处理机制的路径排序处理,控制不同句法成分生成的优先性,最后输出完整的句法分析树。本文在汉语匹配分析器的基础上通过获取压缩共享森林(PSF)中存储的各个句法成分信息与扩展路径信息,在概率排歧的基础上引入基于语义信息的排歧规则以提高句法分析的准确性。对于一个指定的歧义模式和一个已分词和词性标注的句子判断歧义模式并消歧的步骤如下:
1.读入经过分词和词性标注的句子。2.使用汉语匹配分析器生成语法树。3.分析语法树中是否包含具有歧义模式的短语。4.如果存在歧义模式的短语,根据语义信息的排歧规则判断汉语匹配分析器生成的语法树是否正确。5.若正确,在PSF中找出歧义模式短语的其他扩展路径中内概率最大作为新的扩展路径,重建语法树。接下来详细叙述算法步骤3、4、5。
4.1 分析语法树中是否包含具有某种指定歧义模式的短语
对于每种歧义模式,需确定汉语匹配分析器自动生成的语法树中是否包含这类模式的短语,遍历语法树找出符合模式的短语。以VNUN模式为例。汉语匹配分析器将VNUN模式的短语解析成两类短语结构:定中结构和述宾结构。因此在一棵语法树中需找符合VNUN模式的短语就是要找出所有定中结构的名词短语,其中定语为述宾结构动词短语和所有述宾结构动词短语,其中宾语为两个名词短语(或两个名词)构成的定中结构名词短语。同理若需在一棵语法树中寻找符合VAN模式的短语,即在语法树中寻找所有述宾结构,其中宾语为形容词修饰名词构成的定中结构或述语为动词与形容词构成的动补结构;若需要在语法树中寻找NV模式短语,即在语法树中寻找所有主谓结构;若需要在语法树中寻找VN模式的短语,即在语法树中寻找所有动词与名词词组组成的述宾结构;若需要在语法树中寻找PNUV模式短语,即在语法树中寻找所有介宾结构(宾语为名词与动词构成的主谓结构)和所有的定中结构(定语为介宾短语);若需要在语法树中寻找ANN模式短语,即在语法树中寻找所有并列结构名词短语(其中第一个名词为形容词与名词构成的名词短语),或者所有定中结构名词短语,其中定语为形容词修饰名词与名词构成的(定中或并列)名词短语,或者定语为形容词修饰名词的定中短语修饰第二个名词;若需要在语法树中寻找VVO模式短语,即在语法树中寻找所有双重述宾结构。
4.2 结合语义判断该歧义模式短语的语法结构是否正确
针对七种短语歧义模式,结合语义搭配信息判断歧义模式短语的语法结构是否正确。例如,判断VNN模式,需观察动词与哪个名词搭配形成动宾关系;判断VAN模式的短语,需观察动词与形容词之间的动补搭配信息以及动词与名词之间的动宾搭配信息等。
4.2.1 四种基本的语义搭配信息的判断
如何判断动词与名词之间的动宾搭配信息?以动词“来自”为例,在现代汉语述语动词机器词典中查询该词,可以得到其受事语义分类“{处所}”,现代汉语语义分类系统中相应节点下的词即可能作为动词“来自”的宾语。如何判断动词与名词之间的主谓搭配信息?以动词“加工”为例,在现代汉语述语动词机器词典中查询该词,可以得到其施事语义分类“{人类}”,现代汉语语义分类系统中相应节点下的词即可能作为动词“加工”的主语。如何提取动词与形容词之间的搭配信息?现代汉语述语动词机器词典对每一条动词记录都明确的定义了该动词的补充动词标志。如何提取形容词与名词之间的搭配信息?以形容词“纯朴”为例,在现代汉语述语形容词机器词典中查询该词,可以得到其当事的语义分类“{人类|抽象物}”,现代汉语语义分类系统中相应节点下的词即可能作为形容词“纯朴”的当事。
本文研究除了应用现代汉语语义知识库的资源,还借助了搭配词典中的搭配实例来进行四种基本搭配结构的研究,分别为主谓搭配词典,动宾搭配词典,动补搭配词典以及定中搭配词典。现代汉语语义分类系统的某些语义分类节点过于庞大(比如说{人类},其包含大量子节点与叶节点),对于判断某些动词的施事受事语义分类或者某些形容词的当事语义分类过于笼统。对于某些歧义形式,例如“ANN”,会出现两个名词都可与形容词搭配构成定中搭配关系。这种无法在两个层分能否搭配的层面进行消歧的情况被称为内含型歧义格式。此时消歧的工作应判断同样可行的两种搭配哪种概率更大。例如,“新/A汉语/N词典/N”,从语义分类而言,“新”可以搭配具体名词也可以搭配抽象名词,但是从语用习惯来说,“新”与“词典”搭配概率更大。搭配词典将补充搭配实例的概率信息。搭配词表的构造为检索陈群秀逾一亿字的生语料库,利用固定的模式提取出动宾搭配、动补搭配、主谓搭配及定中搭配。抽取的搭配词条按搭配强度依次排序。
4.2.2 利用搭配信息判断语法结构
提取出所有的搭配关系,即动宾搭配、动补搭配、主谓搭配、定中搭配,其中既包括语义分类系统中的搭配集合,也包括搭配词典中的搭配实例,接下来可以针对语法树中找到的每个歧义模式来判断其语法结构的分析是否正确。
1.VNUN模式(Verb+firstNoun+U+seeondNoun)
VNUN模式的短语一般被解析成两类短语结构:定中结构名词短语(VN修饰N)和述宾结构动词短语(NUN做V的宾语)。将动词V的受事的语义分类映射到语义分类系统中,分别查询名词N1与N2是否在该语义分类集合中,或者查询动宾搭配词典中该动词V的搭配实例是否包含N1与N2,如果都包含,哪个名词与动词V构成动宾搭配的概率更大。若在原句法分析中,VNUN被解析为名词短语,而N1不能与动词V构成动宾搭配关系,或者N1与N2都可以与动词V构成动宾搭配关系,但是N2与动词V构成动宾搭配关系的概率更大,则该语法结构有误需要重新生成语法树;若原句法分析中,VNUN被解析为动词短语,而N2不能与V构成动宾搭配关系,或者N1、N2同时可与动词V构成动宾搭配关系,但是N1与动词V构成动宾搭配关系的概率更大,则该语法结构有误需要重新生成语法树。
2.VAN模式(Verb+Adiective+Noun)
VAN模式的短语一般被解析成两类短语结构:述宾结构短语,VA构成述补结构;述宾结构短语,AN构成定中结构。查询动词V的动词后状,查询形容词A是否可做动词的后补,同时将形容词A的当事的语义分类映射到语义分类系统中,查询名词A是否在该语义分类集合中,或者查询定中搭配词典中该形容词A的搭配实例是否包含N。若在原句法分析中,VAN被解析为述补后接名词的述宾结构,而动词V后不能接状语形容词A,则该语法结构有误需重新生成语法树;若在原句法分析中,VAN被解析为动词后接定中名词短语的述宾结构,而形容词A不能与名词N构成定中搭配关系,且动词V可后接形容词A做状语,则该语法结构有误需重新生成语法树。
3.NV模式(Noun+Verb)
NV模式的短语一般被解析成主谓结构短语。将动词V的施事的语义分类映射到语义分类系统中,查询名词N是否在该语义分类集合中,或者查询主谓搭配词典中动词V的搭配实例是否包含N。若N不能与动词V构成主谓搭配关系,则该语法结构有误需重新生成语法树。
4.VO模式(Verb+Obiect)
VO模式的短语一般被解析成述宾结构短语。将动词V的施事的语义分类映射到语义分类系统中,查询短语。的中心词N是否在该语义分类集合中,或者查询主谓搭配词典中动词V的搭配实例是否包含N。若N不能与动词V构成主谓搭配关系,则该语法结构有误需重新生成语法树。
5.PNUV模式(preposition+Noun+U+Verb)
PNUV模式的短语一般被解析成介宾结构短语或者述宾倒置结构。将动词V的施事的语义分类映射到语义分类系统中,查询名词N是否在该语义分类集合中,或者查询主谓搭配词典中动词V的搭配实例是否包含N;或者将动词V的受事的语义分类映射到语义分类系统中,查询名词N是否在该语义分类集合中,或者查询动宾搭配词典中动词V的搭配实例是否包含N。若在原句法分析中,PNUV被解析为介宾结构短语,而N不能与动词V构成主谓搭配关系,则该语法结构有误需重新生成语法树;若在原句法分析中,PNUV被解析为定中结构短语,而N不能与动词V构成动宾搭配关系,则该语法结构有误需重新生成语法树。
6.ANIN2模式(Adiective+firstNoun+secondNoun)
提取出的ANlN2模式的短语一般被解析成多类短语结构:①A修饰N1构成名词短语,再与N2构成定中短语;②N1修饰N2构成定中结构,再与A构成二重定中结构;③N1与N2构成并列结构,再与A构成定中结构。
将形容词A的当事的语义分类映射到语义分类系统中,分别查询名词N1与N2是否在该语义分类节点下的集合内,或者查询定中搭配词典中该形容词的搭配实例是否包含N1或N2,若都包含,比较形容词与两个名词构成定中搭配的概率。若原句法分析中,ANlN2被解析为短语结构①,而A不与N1构成定中结构,或A可与N1、N2分别构成定中搭配关系,但A修饰N1的概率与A修饰N2的概率差值小于阈值,则该语法结构有误需重新生成语法树;若原句法分析中,ANlN2被解析为短语结构②,而A不与N2构成定中结构;或A可与N1、N2分别构成定中搭配关系,但A修饰N2的概率与A修饰N1的概率差值小于阈值,则该语法结构有误需重新生成语法树;若原句法分析中,ANIN2被解析为短语结构③,而A不能与N1或N2构成定中搭配关系,或构成定中搭配关系的概率差值大于阈值,则该语法结构有误需重新生成语法树。
7.VVO模式(firstVerb+seeondVerb+Object)
句例1:服务/v送/v温暖/n
句例2:开始/v发行/v人民币/n
VVO模式的短语被句法分析器一般被解析成双重述宾结构,第一个动词与第二个动词组成的述宾短语构成二重述宾短语结构。根据现代汉语述语动词机器词典判断第一个动词是否可以直接后接宾语,若不行,则该语法结构有误需重新生成语法树。
4.3 重建语法树
重建语法树就是重建机器分析错误的短语的语法树。本文根据汉语匹配分析器的原理,对于分析错误的短语,在PSF中找出所有的它们对应的边,其中扩展概率最大的边就是当前语法树所使用的扩展方案,也就是该短语分析错误的语法树结构,因此在余下的边中找出扩展概率最大的边作为该短语新的扩展方案,并根据它的子节点信息和PSF中其他的信息重建该短语新的语法树,并用它替换该短语原来分析错误的语法树。例如,对于输入“中国/nS现代/b雕塑家/n杨冬白/nP创作/v的/u《/《饮/水/n的/u熊/n》/》就/d是/vC一/m件/qN较/dD好/a地/u寓/v具象/v于/p抽象/v的/u作品/n。/。”,汉语匹配分析器对其中“饮/v水/n的/u熊”的分析结果是“[vp-PO饮/v[np-DZ水/n的/u熊/n]]”,经过本文算法的判断后发现该短语的语法树错误,于是找出PSF中该短语对应的所有边,如下所示共有两条:
编号为35的边扩展概率较大为当前对该短语的扩展方案,因被判断为有误,因此在剩下的边中找到扩展概率最大的边,即34号边作为新的扩展方案,并根据其子节点列表重建语法树。
5 实验结果分析
现代汉语语义知识库短语消歧研究实验中采用周强树库25 248句语料,其中18 162处短语符合文章归纳的短语歧义模式,句法匹配分析器分析处理错误的短语有3 215处。通过引入本文的语义信息的排歧处理,有1 489处短语可以被处理,其中正确排歧的短语有887处,错误排歧的短语有602处,排歧正确率为59.57%,排歧召回率为27.59%,语义信息的引入使得句法分析器针对这几类短语模式的分析正确率从82.3%提高到87.18%。只用现代汉语语义分类进行排歧处理,被处理的1440处短语中,正确排歧有824处,错误排歧为616处,排歧正确率为57.22%,排歧召回率为25.63%。在实验中,由于动词、形容词词典和名词分类词典中缺少词条而无法进行排歧处理的短语有1532处,占整个待处理短语的47.65%。若不考虑这些短语,使用语义信息排歧的召回率为52.70%。排歧的结果显示,引入语义信息排歧处理可提高句法匹配分析器的正确率,其中搭配词表信息的引入,不仅对总体正确率的提高有大的帮助,也可以对机器无法判断的内含型歧义进行排歧。
分析含歧义短语模式却无法排歧的句子,发现基于语义信息的排歧过程中仍存在如下问题:
1.动词词典或搭配词表中不包含待判断的动词;形容词词典或搭配词表中不包含待判断的形容词;某些真实世界中存在的搭配关系没有被收录到语义分类系统或搭配词表中。
2.动词词典中动词的施事或受事的语义分类和语义分类系统中的分类名称不匹配。形容词词典中形容词主语的语义分类和语义分类系统中的分类不匹配。
3.该实验只针对某些子节点的简单的短语进行消歧,对于某些包含歧义短语模式的句子句法分析器在句法树上层节点可能就分析错误,导致实验无法根据分析结果找出待修正的短语。
4.目前还难以分析和处理复杂的短语结构中的错误。针对一些内含型歧义无法只在短语的结构中去进行消歧,还需结合上下文语境进行消歧。
将语义信息用于句法分析发现歧义并提高句法分析的正确率,说明解决句法分析的难题需要引入各层信息。而在这之前,大量总结句法分析的错误例子,才能有效提炼出有共性的歧义模式,同时,积累、总结和学习各种语义搭配关系才能为短语模式消歧奠定重要的语义资源基础。在已做的这些工作之余,有待进一步深入研究并改善的内容有:
进一步完善与扩大现代汉语语义知识库;
进一步研究学习各种句法分析错误的实例,试图找到更多具有共性的歧义模式;
通过引入虚词词典将局部的模式消歧推广到更深层次的句法消歧;
结合上下文语境进行更深层次的内含型歧义消解工作。