基于统计方法的汉语长句依存句法分析
句法分析是自然语言处理中的关键性问题之一,它主要研究词和短语如何形成正确的句子,词和短语在句子结构中起什么作用以及它们之间的关系等。句法分析研究领域一直是以短语结构方法为主流,随着句法分析技术的发展,依存语法的优越性逐渐体现,依存句法分析也逐步得到重视。本论文主要采用决策式依存句法分析方法,针对汉语长句的句法分析问题展开研究工作,主要研究内容如下:
首先,对汉语句子做分割的预处理工作,通过构建根搜索器Root-Searcher,找到每个汉语句子的根结点,利用根结点信息将句子分割成两个子句,然后分别分析出两个子句的依存子结构。利用这种分割方法,将长句的分析化为对两个短句的分析,句子的复杂度有所降低,因此,提高了句法分析的正确率,解决了长句句法分析正确率较低的困难。
第二,改进了句子的分析方法,在分析方法上,采用决策式依存句法分析算法,并针对Arc-eager决策式依存句法分析算法所出现的Early-reduce问题,对MeixunJin的两段式依存句法分析方法做了一定的改进,经过改进后的两段式依存句法分析方法,能够同时解决由动词和介词所引起的Early-reduce问题。
最后,在句子的分析方向上,本论文根据分割后句子的特点,以及汉语语言所具有的投影性特征,提出了采用向前分析和向后分析相结合的策略。相关实验证明,在算法执行过程中,采用两种分析方向相结合的方式,能够显著地提高依存句法分析的正确率。
统计方法;句法分析;汉语长句;依存句法分析
中国海洋大学
硕士
计算机应用技术
姚文琳
2009
中文
TP391.1
60
2009-09-28(万方平台首次上网日期,不代表论文的发表时间)