中心统筹研制的中国语言资源有声数据库上海库建设通过国家验收

发布者:上海市教育科学研究院 日期:2017-1-11 12:20:00 人气:

中国语言资源有声数据库是收集当代汉语方言、少数民族语言和带有地方特色的普通话的实态、有声语料,并进行科学整理、加工和有效保存,为推进中国语言信息化、推广普通话和社会文化建设服务而建立的语言数据库。上海是中国语言资源有声数据库建设首批试点省市之一,上海库建设工作于2011年3月正式启动,2014年年底全面完成。国家语言文字政策研究中心受市语委办的委托统筹组织全市的建库工作。

2015年4月13日,教育部、国家语委组织专家组对中国语言资源有声数据库上海建库工作进行了评审验收。专家组在审查了上海库12个调查点的有声数据、视频数据以及记音和转写资料后,一致同意通过验收。专家组在评审意见中指出:上海市有关领导部门认真贯彻国家关于科学保护语言资源的要求,高度重视建库工作,规划认真稳妥、实施周密细致,在人员、经费、组织、管理等各方面为建库工作提供了坚实的保障;上海各调查点建库工作严谨认真,发音人的选择、音像数据的采集、方言音系语料的梳理等各方面工作符合国家规定的技术标准和学术规范,符合上海的语言事实;上海库的建设对于保存上海方言和文化具有特殊意义,是上海市重要的语言文化工程。

一、上海库主要内容

上海库采集收录了12个调查点的相关数据,具体包括:浦西城区2个(老城厢和周边城区各1个),浦东新区2个(川沙地区和原南汇地区各1个),远郊区8个(闵行、宝山、嘉定、金山、松江、青浦、奉贤、崇明各1个)。

每个调查点采录了4名发音人的语言数据。其中:1940-1950年之间出生的2名(男女各一人),1970-1980年之间出生的2名(男女各一人)。这些发音人夫妻双方都是本地人,且长年居住、生活在当地,即使有外出求学经历也不超过4年。

每个发音人需用当地话朗读单字1000个、词汇1200个、语法例句50句,用录音文件形式保存;需用当地话讲一个民间故事(全国统一为《牛郎和织女》),介绍当地风土人情、本人家庭情况或学习工作经历等,用视频文件形式保存。同时,需要4名发音人用当地话交谈不少于40分钟,交谈内容是关于当地的文化习俗、风土人情,用视频文件形式保存。此外,有的发音人还需要用当地的地方普通话朗读3篇文章(全国统一为《牛郎和织女》《诚实与信任》《大学生村官》),用录音文件形式保存。

在取得上述声像资料后,各调查组需要根据发音人的实际发音,为每个发音人朗读的单字、词汇、语法例句逐一标注国际音标;需要将1940-1950之间出生的男性发音人讲的《牛郎和织女》故事,以及介绍当地风土人情、本人家庭情况或学习工作经历等的话语转写成文字,并要求忠实于发音人的话语实际,逐字记录,当地方言特有的文字及词汇需要逐一考证。在此基础上,调查组还需整理分析并记录描写当地方言的音系规律,包括声、韵、调的数量和具体所指。

完成上述国家规定的工作任务之后,目前各调查组还在继续将其余各发音人的话语数据(包括多人交谈的话语数据)翻译成普通话后转写成文字,为相关录像资料配上字幕,以利不懂上海方言的人士了解其话语内容。

此外,各调查组还收集了当地口头文化、风俗习惯和风物特产的声像资料,如浦东说书、青浦田歌、奉贤山歌、崇明糕制作、崇明灶花、金山农民画等。

二、上海建库工作主要情况

上海建库工作由市语委统一组织,由复旦大学、华东师范大学、上海师范大学和上海大学四所高校的专家团队分工合作完成。

(一)做好学术准备

2011年3月的启动仪式上,市语委与四所高校分别签署委托协议,明确了各校采集、整理相关调查点语言数据的目标责任。之后,指导各校分别组建了由语言学专业师生等组成的调查工作组,并对全体工作人员进行了6次关于技术标准和学术规范的培训。同时,反复召开建库工作学术研讨会,就上海话国际音标标注方式、语篇转写用字的统一等问题确定了一系列处理原则。

(二)征召、遴选上海话发音人

2011年3月起,市语委通过市语协和各远郊区语委在全市范围开展了公开征召上海话发音人的活动。公开征召期内,浦西城区2个调查点共有457人报名参选,通过书面审核和面试,2个点遴选确定了14名发音人。各远郊区调查点发音人遴选工作由于城市化进程加快等原因遇到了一定的困难。为此,市语委指导相关区县语委不断加大宣传发动力度,并通过市非物质文化遗产保护办公室、各远郊区地方志办公室等部门主动寻找符合条件的发音人,取得了良好的效果。直至2012年6月,全市12个调查点上海话发音人的招募遴选工作全面完成。

(三)采集声像数据

为科学推进声像数据的采录工作,市语委于2011年7月在松江区组织了声像数据采集试点和学术研讨会,就试点过程中遇到的一系列学术问题和技术问题进行了研讨,明确了统一标准、规范实施的具体要求。

2011年9月,市语委指导上师大调查组在崇明蹲点1个月,全面完成了崇明话有声数据的采录和记写工作,并收集了崇明地方文化的声像资料,进一步取得了试点经验。

2012年至2013年,崇明点以外其余11个调查点有声数据的采录工作全面展开。2012年,市语委还在华东师范大学出版社建设了专业摄影棚,专门用于各调查点话语数据的声像采集。至2013年底,全市12个调查点的有声数据采录工作全部结束。

(四)声像数据加工整理

2014年,各调查组集中开展了对有声数据的记音、转写和整理分析工作;至9月,各点完成了初稿。为确保工作质量,市语委组织了对初稿的预审,委托相关机构对单字记音进行了同音校验。11月,市语委又召集各调查团队对预审中发现的问题进行研讨,进一步统一了记录的格式,明确了学术规范。各调查团队根据会议意见,在进一步修订后最终定稿。至此,上海的建库工作全面完成。

2015年年初,市语委将所有数据报教育部语信司。语信司组织专家进行了预审,在文档格式、记音格式等方面提出了一系列整改意见。之后,市语委又指导、督促各高校团队反复校对、审改各项数据,努力将专家提出的整改意见逐一落到实处。

(五)扩展调查范围

针对奉贤地区方言元音多、内部差别大的特点,应奉贤区政府的要求,市语委还决定在已定的12个点以外,增加调查奉贤金汇、四团、庄行3个调查点。这3个调查点的有声数据采录工作也已完成。

三、上海建库工作的主要经验

第一,坚持正确的舆论导向。注重全面、正确地理解并宣传好国家“大力推广和规范使用国家通用语言文字,科学保护各民族语言文字”的方针政策,始终把握好建设方言数据库和推广普通话的关系,正确引导社会舆论,使建库工作取得了各级领导以及社会各界的高度关注和广泛支持。

第二,注重规范与质量。市语委严格按照国家语委《调查手册》规定的要求和标准推进各项工作,并努力确保调查、建库工作的规范与质量。一是程序规范,加强对各调查点语音数据采录工作的现场监查和质量监控,督促各工作团队首先运用传统方法进行预调查,再进行正式录音,录音后及时复核、整理语音数据。二是技术规范,为各团队配置同一型号的设备仪器,指导、督促各调查点所在区县语委严格按照国家《调查手册》关于录音场地等的技术标准,遴选确定录音场地。三是学术规范,组织专家对各高校参与调查的人员不断开展密集的培训和研讨,确保各调查点工作标准一致。

第三,坚持政府主导和充分发挥专家作用相结合。市语委积极为建库工作提供组织、经费等各方面保障,采取多种管理措施,努力加强组织协调,确保各调查点调查采录工作步骤一致、标准统一;有关高校分工负责,与市语委签订了工作责任书,明确了各自的工作目标和责任;相关专家和科研团队具体实施各调查点语音数据的调查采录和转写记音,并负责技术和学术把关。从而,形成了政府主导、高校负责、专家实施的工作格局。