汉语谈话类节目语料库的构建与分析
口语语料库的建设是口语研究的基础工作,本文选择具有代表性的交谈式谈话节目《锵锵三人行》和对谈式谈话节目《鲁豫有约》作为语料,建立了一个小型的谈话节目语料库,并构建了包含5大类16小类的会话结构标注体系,对语料进行了会话结构的标注.统计得到打断结构294例,插入结构130例,重复结构92例,问答结构646/561例,阻碍-修正结构58/21例,反映了会话结构在数量上的不均衡分布,节目的形式、性质以及交际任务是会话结构分布的主要影响因素.此外,会话结构组合具有模式性,本文通过bigram对其组合情况进行了分析,发现语料中高频的二元组合是问答毗邻对,此外有大量的非毗邻性组合,包括结构之间的嵌套组合、交叉性组合和自由组合.
汉语谈话类节目 语料库 自然语言处理
王珊 刘锐
香港教育大学中国语言学系
国内会议
第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)
烟台
中文
1-10
2016-10-14(万方平台首次上网日期,不代表论文的发表时间)