1、关于汉语作为第二语言教学研究中语料库利用的两个问题/福建师范大学 沙平/一、语料库与语料库语言学/1/1 语料库(corpus/corpora): 是存储语料的数据库,是以电子文本或其它电子介质形式存贮在计算机中的、借助计算机软件进行管理并可以通过计算机软件进行查询、检索、统计的一定数量的语言材料的***,是进行语言研究的一种普遍资源/一、语料库与语料库语言学/1/2 语料库语言学(corpus linguistics) : 包含两个方面: (1)语料库建设,包括对自然语料进行加工、标注; (2)语料库应用,用已经标注好的语料进行语言研究和应用开发。 是以现实生活中人们运用语言的实例为基础进行的
2、语言研究,可以在研究中发现某些语言规律,也可以对语言假说进行验证/一、语料库与语料库语言学/1/3 汉语中介语语料库建设 汉语中介语语料库的建设是在国内外语料库语言学和母语语料库建设的影响下开始的。 国外第一代计算机语料库(196070年代): 小规模(百万词级),以语言研究为导向,词法级。 Brown、 LOB、 London-Lund Corpus/一、 语料库与语料库语言学/第二代计算机语料库(1980年代): 大规模(千万词级),词典编纂应用导向,句法级。 Bank of English、 Longman、 ICE(The International corpus of English
3、/一、 语料库与语料库语言学/第三代计算机语料库(1990年代): 超大规模(上亿词级),标准编码体系深度标注/多语种NLP应用,语义和语用级。 BNC(The British National corpus)、LDC(Linguistic data Consortium,语言学资料共享计划)、法兰西语料库、 俄语国家语料库、 NERC(Network of European Reference Corpora,欧洲参考资料语料库网/欧洲语料库网(European Corpora Network)/一、 语料库与语料库语言学/***语料库: 互联网作为语料库。 可以把不断发展的因特网作为虚拟语
4、料库/一、语料库与语料库语言学/中国大陆的语料库建设: 始于80 年代初期,发展迅速。 例如:“汉语词频统计语料库”为200万字次;“现代汉语语料库”为7000万字次;“中文五地区共时语料库”每年收入的语料达6亿至8亿多字次;“面向语言教学研究的汉语语料检索系统CCRL”为8亿多字次/一、语料库与语料库语言学/在这种背景下,从上世纪90年***始,中国大陆开始建设外国人学习汉语的中介语语料库。经过10多年的发展,汉语中介语语料库建设已初具规模,并在汉语作为第二语言教学与习得等研究领域发挥了重要的作用/一、语料库与语料库语言学/1/4 已建成的主要汉语中介语语料库 北京语言大学:汉语中介语语料库系
5、统(1995)、HSK动态作文语料库(2006)、首都外国留学生汉语文本语料库(2010)、 汉语学习者口语语料库(2007) 南京师范大学:外国学生汉语中介语偏误信息语料库 中山大学:留学生中介语语料库 暨南大学华文学院:留学生汉语中介语语料库/一、语料库与语料库语言学/上海交通大学、厦门大学、北京大学、中国人民大学、北京师范大学、鲁东大学、苏州大学、四川外国语学院、华中师范大学等,也都已经建成或正在建设自己的汉语语料库。 但是,现有的语料库绝大多数都是书面语语料库,口语语料库很少,多模态语料库尚无建成者/一、 语料库与语料库语言学/1/5 作用与成果 通过对语料库中较大规模真实语料的考察,
6、研究者发现了前人未曾发现的一些汉语中介语现象。语料库为定量分析奠定了坚实的基础,研究者可以把定性研究与定量研究相结合,从而使得出的研究结论具有较强的客观性、普遍性和科学性,这在一定程度上改变了汉语教学与习得研究的模式,极大地提高了汉语作为第二语言教学研究的水平/一、 语料库与语料库语言学/研究案例一:关于汉语补语的习得难度与习得顺序 一般认为有复杂的补语系统是汉语语法的一个特点,也是外国学习者习得汉语的一个难点。但是,北京语言大学的课题组利用“汉语中介语语料库”对带“得”字补语句的习得状况进行了考察,发现学习者习得“得”字补语句的偏误率没有人们想象的那么高。(见下表/得”字程度补语句的习得状况
7、/得”字情状补语句的习得状况/孙德金2002,赵金铭 2008/一、 语料库与语料库语言学/这一研究结果促使研究者利用相同语料库对不带“得”字补语句(如趋向补语)的习得情况进行考察,结果发现学习者习得不带“得”字补语句偏误率整体高于带“得”补语句。通过进一步的深入考察,研究者大体构拟出了英、日、韩(朝)等母语学习者对汉语不同类型补语的习得顺序。(杨德峰2003、2008/一、 语料库与语料库语言学/中国大陆近年来基于语料库的具有代表性的研究成果: 赵金铭教授:“基于中介语语料库的汉语句法研究”(2008) 张博教授:“基于中介语语料库的汉语词汇专题研究”(2008) 肖奚强教授:“外国学生汉语
8、句式学习难度及分级排序研究”(2009)/二、关于语料库利用的两个问题/2/1 利用语料库已经成为汉语作为第二语言教学研究的主流方法 语料库以其语料的充分性、客观性、可验证性、使用的便捷性,正在使语言学的研究与应用产生量与质的飞跃。 语料库语言学将数据收集与理论论述有机地结合在一起,使我们对语言的理解发生了质的变化/(Halliday1991) 基于语料库的研究方法,已经成为当代语言学和应用语言学研究中的一种主流方法。 (王建新2005/二、关于语料库利用的两个问题/语料库的使用,为语言学的研究提供了一种新的思维角度,辅助人们的语言“直觉”和“内省”判断,从而克服研究者本人的主观性和片面性,逐
9、渐成为语言学研究的主流方法。从某种意义上说,语料库的使用,是语言学研究的一次***性的进步。(冯志伟2006:14/二、关于语料库利用的两个问题/以北语开发的“HSK动态作文语料库”为例 为海内外众多硕士生、博士生所使用,为他们的研究及论文写作提供帮助。 学术期刊、学术会议及网上可以看到众多利用该语料库的研究成果。 注册用户众多,一旦发生故障会引起全球性反应。 但是,我们发现在利用语料库进行汉语习得和教学的研究中,有两个问题值得我们注意/二、关于语料库利用的两个问题/2/2 要注意研究对象的“同质”性 欧美现代语言学之父、瑞士语言学家费尔迪南德索绪尔(ferdinand de saussure
10、1857-1913)十分重视语言研究的“同质”问题。他提出了区分语言/言语、历时/共时、能指/所指、组合关系/聚合关系等一系列二分的语言学概念,就是为了确保语言研究对象和语言研究的同质性/二、关于语料库利用的两个问题/研究案例二:关于汉语形容词的语法分布 在英语中,修饰名词作定语是形容词的专利;但在汉语中,对形容词修饰名词作定语的语***能却有着截然相反的论述,对形容词充当谓语也有不同的看法/二、关于语料库利用的两个问题/形容词能作谓语或谓语中心语和定语,多数能够直接修饰名词。”(黄伯荣、廖序东主编现代汉语,高等教育出版社,2004年。已发行500多万册) “在不带的的格式里,形容词和名词的配合
11、受到***,比如可以说白纸、白头发,但是不说或不太说白手、白家具。”(***熙语法讲义,商务印书馆,1982年。/二、关于语料库利用的两个问题/性质形容词单独作谓语也有一定的***,一般只能用于对照、比较的情况。在没有比较意味的句子里,一般要在前面加上程度副词很。” (刘月华等主编实用现代汉语语法,商务印书馆,2002年。) 有学者利用语料库对汉语形容词在书面语和口语中的分布进行了统计(张宝林2011/二、关于语料库利用的两个问题/形容词的主要语***能:定语说+谓语说/二、关于语料库利用的两个问题/口语和书面语是不同质的研究对象,基本义相同的口语词和书面语词经常不能替换:如“帮”、“帮助”、“帮忙”
12、基本意义相同,“你帮我买张票”,不说“帮助”和“帮忙”;“他欺骗我的感情”、“他骗我的钱”,“欺骗”和“骗”也不能互换。这和书面语与口语有关,也和汉语的节律有关。 结论:对汉语形容词语法分布的论述应区分口语体与书面语体/二、关于语料库利用的两个问题/研究案例三: “把”字句习得的“回避”说与“不回避”说 量词的用法、形容词谓语句、无标记的被动句、带各种补语的句子、“把”字句(多数学生难点中的难点)、“了”“着”“过”的用法(“了”也是难点中的难点)、比较句、方位词的用法、长定语、三位数以上的大数目。 怎么知道什么是难点,什么不是难点呢?一是通过语言对比研究来发现,二是靠教学经验。到底什么是真正
13、的难点,最终还要靠教学经验来检验。(吕必松1992:110/二、关于语料库利用的两个问题/如以英语为母语的学习者的语法难点有:形容词谓语句、无标记被动句、带各种补语的句子、“把”字句、“是的”句、比较句以及“了”“着”“过”的用法、量词用法、方位词用法、长定语、大数目称数法以及话语连接等。其中的大部分,对任何母语背景的学习者来说也都是难点。 通过语言对比突出语法的重点和难点。对外汉语语法教学的一大特点是学习者会受到其第一语言迁移作用的影响。作为第二语言的汉语对所有学习者都有共同的难点,对不同母语背景的学习者又有特殊的难点。(刘珣2000:366/二、关于语料库利用的两个问题/对欧美学生来说,受
14、事主语句、存现句、主谓谓语句,以及时间、地点状语的位置,始终是学习的难点,同时也体现汉语语法特点。而带有普遍性的语法难点,则是“把”字句、各类补语以及时态助词“了”“着”等。至于我们所认为的特殊句式,其实并非学习的难点,比如连动句、兼语句、“是”字句、“有”字句以及名词谓语句、形容词谓语句。这也是从多年教学中体味出的。(赵金铭 2006/二、关于语料库利用的两个问题/学界共识: 1)最大难点:“多数学生难点中的难点”。 2)回避:外国学习者对把字句采取了回避的学习策略,尽量不用,用则必错。 证据: 1)外国人对把字句的使用率不足百分之一。 2)谈话一小时,没用一个把字句/二、关于语料库利用的两
15、个问题/有学者利用语料库对把字句使用情况进行了考察 偏误率: 在“HSK动态作文语料库”(1/0版)中,共有把字句3682句,其中正确句3221句,在把字句总数中所占比例约为87/ 48%;偏误句461句,在把字句总数中所占比例约为12/ 52/二、关于语料库利用的两个问题/使用率: 外国学习者:3682 /40000000/0921%。 汉语母语者: 张黎2007:46/2100000/0219% 李宁、王小珊2001:335万字,0/0894% 人民日报: 俞士汶(98/1-6):9801/130000000/0754% CCRL(2000):1498/19300000/07762% CC
16、RL(2012):18413/240000000/0767% “比较大的样本可以减低样本统计量的变异” (戴维S穆尔2003:162/二、关于语料库利用的两个问题/由此得出结论:外国汉语学习者对把字句的使用率和偏误率都仅次于“是的”句、是字句、有字句,而高于其他句式,不存在回避问题/二、关于语料库利用的两个问题/我们认为,大规模书面语语料库检索的结果尚不足以***外国汉语学习者回避“把”字句的成说,他仅仅能证明外国汉语学习者在书面语体的汉语测试中“把”字句的使用频率略高于国内汉语书面语体语料库“把”字句的出现频率,而在口语中由于没有思考斟酌的余地,出于交际策略,规则复杂的“把”字句不排除被回避的
17、可能。当然,这也只是经验主义的推测/二、关于语料库利用的两个问题/要***回避说,还必须有平行的口语语料库检索、分析结果的支持,而目前中国大陆的语料库绝大部分都是书面语语料库,口语语料库刚开始建设(北语的“汉语学习者口语语料库”,“HSK动态口语语料库”;香港中文大学的“语言习得汉语口语语料库(LAC/SC)”,苏州大学的“小型外国学生口语中介语语料库”),多模态语料库则还处于理论探索阶段/二、关于语料库利用的两个问题/为求同质李菡幽自建语料库 厦门大学***教育学院讲师李菡幽在其博士论文基于学习策略的汉语作为第二语言语法偏误研究中自创了20万字的汉语作为第二语言习得和汉语作为第一语言习得的平行语
18、料库,观察留学生使用汉语13种特殊句型的偏误情况,并进行了统计分析。因为语料来源于两类学生对同一幅图画的看图作文,即要表达的客观内容是一致的,通过对比,可以更好地呈现出留学生使用汉语13种特殊句式的特点/二、关于语料库利用的两个问题/调查对象:中高级留学生和中国初三年级的学生。 选择初三学生作为参照系有三个考虑: 一是从思维形式和心智发展角度看。初三学生的认知系统已经趋于成熟完善 。这样就避免了因为心智发展等问题引起的语言表达错误,从而使得他们与作为***的第二语言学习者的语法偏误更具有可比性。 二是从二者写作能力的发展特点看。初三学生的写作正处于一个阅读向写作过渡的阶段,也是形成内部差异的重要
19、阶段 。而中高级留学生的二语写作能力也处在过渡阶段,内部差异明显。所以,从这个角度来说,二者也具备了很强的可比性。 三是词汇量大体相当/二、关于语料库利用的两个问题/留学生和中国学生汉语特殊句型使用率比较/二、关于语料库利用的两个问题/李菡悠结论:从使用率来看,留学生对大部分的汉语特殊句式的使用频次均低于中国学生。我们认为这在一定程度上说明了留学生对大部分的汉语特殊句式的使用仍存在一定的回避倾向/二、关于语料库利用的两个问题/2/3 要注意对语料库定量分析结果的“解释” 千百年的西方哲学史总是演绎着经验主义(empiricism)和理性主义(rationalism)的轮回。经验主义哲学重视经验
20、,主张归纳法;理性主义哲学崇尚理性, 提倡演绎法。 语言学研究也不例外,上个世纪前半叶的结构主义语言学是经验主义的。崇尚对语言事实的客观描写,有一套严格的形式描写程序和方法,从对客观语言事实的描写中归纳语言规则/二、关于语料库利用的两个问题/上个世纪中叶,乔姆斯基的转换生成语言学兴起,乔姆斯基在其著作中明确地采用理性主义的方法,完全排斥经验主义的描写方法,主张采用公理化、形式化的方法,严格地按照一定的规则来描述自然语言的特征,试图使用有限的规则描述无限的语言现象,发现人类普遍的语言机制,建立所谓的“普遍语法/二、关于语料库利用的两个问题/语料库语言学属于经验主义的描写语言学范畴,它的优势在于客
21、观、精确和可验证性。但是,我们研究语言和语言教学问题的目的不仅在于了解问题,更重要的是要解决问题,这就需要解释,对客观描写(统计)所揭示的语言事实和语言习得现象作出科学合理的解释,这就是语言教学研究和硕博士论文撰写中所谓的定量研究与定性研究相结合的原则/二、关于语料库利用的两个问题/研究案例四:“有界”与“***” 陆俭明先生在上个世纪80年代从描写语法学的视 角敏锐地揭示汉语中某些句法组合没有数量词就不 能成立或是不***的,还有一种情况是某些句法组 合排斥数量词。(陆俭明1988)例如: 1/某些句法组合没有数量词就不能成立(用*标示)或是不***的(用(*)标示)。 (1)双宾语结构,如果间接
22、宾语是表示位移终点的处所或是表示“给予”的对象,那么直接宾语得带数量词。 *盛碗里鱼 盛碗里两条鱼 (*)送学校油画 送学校一幅油画/二、关于语料库利用的两个问题/2)双宾语结构,如果直接宾语是结果宾语,那么这个结果宾语得带数量词。 *(蚊子)叮了小王大包 叮了小王两个大包 * 捂了孩子痱子 捂了孩子一身痱子 (3)带结果补语或趋向补语的动补结构后面带上名词性宾语(包括施事宾语)形成的这种动宾结构,宾语得带数量词。 (*)打破玻璃(打破玻璃的人找到了吗?)/打破两块玻璃 (*)飞进来苍蝇(飞进来苍蝇就打)/飞进来一只苍蝇/二、关于语料库利用的两个问题/4)“动词+了+名词”这种动宾结构,作宾语
23、的名词得带数量词。 (*)吃了苹果(吃了苹果又吃梨) 吃了一个苹果 (5)非谓形容词(状态形容词)作定语(不带“的”)的偏正结构,其中心语一定得带数量词。 *雪白衣服 雪白一件衣服 *白花花胡子 白花花一大把胡子 *热热儿茶 热热儿一碗茶 *干干净净鞋 干干净净一双鞋/二、关于语料库利用的两个问题/2/某些句法结构排斥数量词。 (6)表示动态行为的处所主语句“主处所+动词+着+宾”,其宾语成分排斥数量词。例如,“山上架着***”如果是表示“山上正在架***”的动态行为(而不是“山上有***”的静态存在),那么“***”不能带数量词。 *山上架着两门*** 山上架着*** 其实不仅是处所主语句,表示动态行为的“动词+着
24、”后面的宾语一般不能带数量词,例如: *他正吃着三碗饭 他正吃着饭 *他正写着五行字 他正写着字/二、关于语料库利用的两个问题/7)性质形容词作定语(不带“的”)的偏正结构,其中心语也不能带数量词。这正好与(5)状态形容词作定语的偏正结构得有数量词的情形相反。 *白一只孔雀 白孔雀 *干净一件衣服 干净衣服 吕叔湘先生在怎样学习语法一文和石毓智(1992a)还指出两种排斥数量词的句法结构/二、关于语料库利用的两个问题/8)“动词重叠式+名词”这种动宾结构,宾语不能带数量词。 (*)今天要谈谈两个问题 今天要谈谈问题 *星期天在家洗洗一件衣服 星期天在家洗洗衣服 (9)在用“不”否定的结构里,动
25、词即使不是重叠式,其宾语一般也排斥数量词: (*)今天不谈两个问题 今天不谈问题 (*)这个月不演三场电影 这个月不演电影/二、关于语料库利用的两个问题/沈家煊先生在90年代从认知语法学的视角用“有界***”这一对概念对陆先生揭示的语法规律做出了解释由于述语部分是个有界的行为动作,所以要求宾语部分也得是有界的(光杆儿名词作宾语表示通指,即类指,是***的,加上数量词就表示专指,是有界的)。(沈家煊1995)这个解释让我们对汉语语法事实的认识显然深入了一步/二、关于语料库利用的两个问题/沈家煊先生还试图将有界/***的理论认识运用到汉语的词类分析,以实现汉语词类分析从传统语法的概念意义标准到描写语法的形式标准再到认知语法的抽象语义标准的轮回。 去年陆先生在商务印书馆“中国语言学书院揭牌仪式暨研讨会”上的讲话中指出:“我们还可以追究,为什么行为动作是有界的,它的宾语也必须要求是有界的?我们对各种各样的语法现象,对各种各样的语法问题,都要去思考为什么?的问题”。也就是提示我们在语言研究中要重视解释 ,当然描写是基本功/二、关于语料库利用的两个问题/2/4 对把字句“不回避说”的解释 对把字句的“回避说”和“不回避说”