北京口语语料查询系统

发布部门:admin 发布时间:2016-09-09 浏览次数:773

北京口语语料查询系统:http://app.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

一、北京口语语料

1981年,北京语言学院(今北京语言大学)来华留学生一系开始实施“北京口语调查”研究课题。1984年,该课题转由北京语言学院语言教学研究所负责。1986年和1987年,该课题先后被列入国家教委博士点基金项目和国家哲学社会科学“七五”规划重点科研项目。

1992年通过专家鉴定。该课题先后由宋孝才、吕必松、任远、常宝儒担任负责人,由刘杰、常宝儒主持日常研究工作。

“北京口语调查”课题采用谈话和录音的方式,按照社会语言学的抽样原则,在北京城区和郊区共调查了近500个在北京生长的人,得到录音磁带共210盘。课题组经审查确定其中374人120盘录音带的材料为有效材料。课题组对这374人120盘录音带的材料进行整理加工,取得了剪辑录音带、转写文本、语料库等一系列成果。

经过多年辗转,课题组当年未处理的约100多人(除了374个有效说话人以外的调查对象)的90盘(210-120=90)录音带,除了6个说话人的录音材料以外,下落不明。在已处理的374人120盘录音带中,有1盘(4个说话人)的声音材料已经完全损坏,今存370人119盘录音带。精加工的102人的40万字转写文本今存有电子文件及其打印件。其余272人的130万字转写文本的电子文件下落不明,只有打印件。带词性标注的文件下落不明,带汉语拼音标注的文件显示为乱码,已无法使用。语料库在现在的电脑系统里已无法使用。

北京语言大学语言研究所自2001年建立以来,把重建完整、科学、实用的“北京口语语料”作为一项重要工作。2004年,“当代北京话应用研究”课题(曹志耘主持)获得北京市哲学社会科学“十五”规划项目立项。在随后的几年里,课题组开展了下列工作:清理旧资料,录入无电子文件的语料,听录音校对文字,重新统一编排,把录音带转为数字形式,进行话语分析标注和语音特征标注,建立“文本-声音”链接,试用检索软件,等,最终建成完整版“北京口语语料”,并完成一批相关成果。完整版“北京口语语料”的基础语料包括:(1)由370人119盘录音带转换成的有声语料文件(wav格式),(2)与录音文件相对应的184万字的转写文本(word文件。其中有4人的语料缺录音)。承担上述工作的,除了曹志耘以外,还有周晨萌、李咸菊、刘晓海、张世方、张燕来、黄晓东、解正明、王莉宁等人。

二、北京口语语料查询系统

为了让更多的人能够便捷地利用“北京口语语料”进行查询和研究,北京语言大学语言研究所在“北京口语语料”的基础上开发出了“北京口语语料查询系统”(简称“BJKY”)。

在北京语言大学领导的支持下,现决定把网络版完全公开,供免费使用。该系统由刘晓海负责研制。

“北京口语语料查询系统”(BJKY)包括上述184万字据录音转写、校对、整理后的北京口语语料,目前主要有以下功能:

1.依据说话人的属性和话题,查询某一字、词、短语或结构在北京口语语料中的使用情况。说话人的属性包括出生年份、性别、民族、地区、文化程度、职业,话题包括居住条件、家庭、学习、工作、生活、个人经历等。

2.查询结果既显示语料,又显示说话人的属性和话题。

3.可以对查询结果进行自定义排序,系统默认依次按照出生年份、性别、民族、文化程度排序。

4.可以对查询结果进行相关统计。

由于本语料未经分词处理,使用者对查询结果中的语料需进行甄别处理。

“北京口语语料”和“北京口语语料查询系统”版权归北京语言大学语言研究所所有。

正式引用本语料时,请使用全称“北京语言大学语言研究所‘北京口语语料’”或简称“北语BJKY”。

其他具体信息,请登录该系统网站查看。