西南官话多模态语料库
South West Mandarin Multimoding Corpus

项目平台介绍

西南官话多模态语料库由以前的“西南官话语料库”升级而来,由贵州师范学院张超老师主持设计、开发和建设,是教育部社科课题“基于百年前西南文人白话作品和传教士文献的清末民初西南官话语法研究”(立项编号20YJA740055)的重要成果之一。

升级后的西南官话多模态语料库包括自然口语语料库、文献语料库、影视对白语料库等三大子库。

自然口语语料库主要按“一县一点”的方案,通过田野调查、生活短视频转录等方式进行语料采集,以散句为主。早期自然口语语料只有文本模态,2024年起采录的语料则都坚持“文本语音双模态”,即每一条语句都同时有文本和音频两种形式。检索页面查出来的句子如果有对应音频文件,会自动显示一个小喇叭图标,点击可播放。

文献语料库的语料采自清末民初传教士西南官话文献和同期西南本土文人文艺作品。传教士西南官话文献包括1869年的《西语译汉入门》、1893年的《华西官话汉法词典》、1900年的《西蜀方言》、1908年的《华英联珠分类集成》、1910年的《华英捷径》、1917年的《华西初级官话课程》等,这类文献由于真实客观记录当时当地的自然口语,语料价值较高,故全文入库;西南本土文人文艺作品包括清末重庆江北罗永仪《缓步云梯集》、清末四川中江刘省三《跻春台》、清末民国黄吉安系列川剧剧本、清末民国李劼人系列小说等,这类文献中叙述部分书面色彩较重,唯人物对白内容与实际生活口语相近,有一定的语料价值,故只将人物对白入库。

西南官话影视对白语料库由20世纪后期和21世纪早期西南地区涌现的部分方言影视剧对白构成,涵盖20余部影视作品。影视作品都力求反映真实生活,人物对白都尽可能采用了完全本地化的方言,因此有较高的语料价值。