全切分图与路径表达式在分词算法中的应用
汉语句子S的全切分图记作Graph(S),意思是,该图的所有路径之集Path(Graph(S))正好表示了S的所有切分方案之集Seg(S).我们用一个正则表达式Path-Expression(S)来表示该图的所有路径之集.因此有Path-Expression(S)=Seg(S).然后我们分别给出了分解Graph(S)与Path-Expression(S)为素子图(仍然是全切分图)与素因式(仍然是路径表达式)的做法,最后还给出利用全切分图给它的所有路径编码-译码的算法.所有这些想法与做法不仅其正确性可严格论证,而且已设计有算法,并已在计算机上实现了.上述两种素分解能使路径集呈指数性削减,路径表达式全局性地把握路径集,素子图与素因式又都十分简单,可望能给汉语语句的词切分与词性标注,甚至给短语确认和句法成分认定等工作带来积极的影响.
全切分图 路径表达式 素分解 路径编码 分词算法
陈晓苏 邹园斌 张文珂
清华大学物理系32班,北京,100084 清华大学自动化系32班,北京,100084
国内会议
沈阳
中文
478-482
2006-08-15(万方平台首次上网日期,不代表论文的发表时间)