多模态体育英语小型语料库的构建
专门用途英语语料库近十年呈现出小型化、专门化、本土化和多模态化。语料库的规模约1~5百万词次,而小型或子语料库只需2~25万词次,小团队或个人即可建库。多模态语料库是以言语活动为研究对象,将声音、图像、文字、动作视频加入自然语言文本分析中,以语料库为分析研究的基础,使用计算机图形学、图像处理、机器学习与模式识别技术进行分析与加工而建成的多媒体语料库,充分体现了体育英语的动态性、真实性和多样性。此类语料库包含纯文本语料库和多媒体语料库两个子库,之后将语料库索引和多媒体文件同步关联。纯文本语料库的语料包括书面语、经过撰写的口语文本以及英汉平行文本三种,来源有网页、教材的光盘、体育英语词典等,基于“开放语料库开发平台”来建立。多媒体语料库的语料以原版体育节目、比赛录像、术科教师上课的录像、微课为主,基于“多媒体定位播放系统”来建立。两个语料库尽量相关、难度一致,使用Range12等统计工具进行难度控制。从内容来说可以按照运动项目本身划分并采集英语语料,也可以按照社会学分类标准,或者按照语体分为书面语和口头语来采集语料。体育英语小型语料库的构建步骤有:语料的采集、语料平台的建立、语料的加工、标注与入库、语料的调试与维护。同时注意开放性、实时性和共享性。
体育英语语料库 文本索引 多媒体文件 语料采集
于蓓蓓
山东体育学院 250063
国内会议
杭州
中文
805-807
2015-11-05(万方平台首次上网日期,不代表论文的发表时间)