中国英语学习者语料库CLEC(桂诗春杨惠中)doc资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中国英语学习者语料库C L E C(桂诗春杨惠
中)
中国英语学习者语料库
CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
言语失误标注原则
1.简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2.分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断are这个词用错了。
开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,
sn82,等等。
5.对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以统一。
言语失误分类表(总数:61)
标注说明
标准化处理后的各种失误频数及其比例
失误类型 st2
st3
st3
st4 st5 总计 百分比(%)
fm1 1928.8 2877.4 2112.6 1826.7 1686.
7 10432.2 17.47 fm2 349.3 448.9 438.9 226.9 328.7 1792.7 3 fm3 1474.4 731.8 405.8 694.1 174.6 3480.7 5.83 vp1 259.4 325.9 498.4 103.4 200.8 1387.9 2.32 vp2 179 139.3 61.2 104.2 22.1 505.8 0.85 vp3 374 524.6 785.2 273.1 327 2283.9 3.82 vp4 140.8 159.1 110.8 63.9 51.6 526.2 0.88 vp5 140 118.7 107.4 89.9 46.7 502.7 0.84 vp6 1165.7 356 311.6 379.8 215.6 2428.7 4.07 vp7 172.7 104.1 98.4 63.9 46.7 485.8 0.81 vp8 27.1 16.3 8.3 25.2 11.5 88.4 0.15 vp9 111.4 274.3 278.5 42.9 86.1 793.2 1.33 np1 46.9 33.5 28.9 16.8 10.7 136.8 0.23 np2 24.7 22.4 17.4 19.3 2.5 86.3 0.14 np3 202.1 247.7 249.6 210.9 186 1096.3 1.84 np4 66.8 55.9 26.4 22.7 21.3 193.1 0.32 np5 58.9 98 71.9 60.5 84.4 373.7 0.63 np6 374 654.4 481 358.8 354.1 2222.3 3.72 np7 237.9 107.5 89.3 174.8 54.9 664.4 1.11 np8
35 65.4 47.9 13.4 7.4 169.1 0.28
np9 6.4 41.3 12.4 7.6 5.7 73.4 0.12
pr1 82 236.5 205 89.9 18.9 632.3 1.06 pr2 16.7 78.3 23.1 4.2 0 122.3 0.2 pr3 52.5 54.2 172.7 28.6 60.6 368.6 0.62 pr4 74.8 37 20.7 48.7 10.7 191.9 0.32 pr5 26.3 53.3 14.1 7.6 10.7 112 0.19 pr6 9.5 2.6 5 3.4 0 20.5 0.03 aj1 6.4 18.9 15.7 5 9 55 0.09 aj2 9.5 3.4 9.9 5.9 7.4 36.1 0.06 aj3 38.2 39.6 32.2 43.7 97.5 251.2 0.42 aj4 16.7 2.6 22.3 12.6 5.7 59.9 0.1 aj5 0.8 3.4 7.4 1.7 0 13.3 0.02 ad1 35.8 96.3 39.7 27.7 15.6 215.1 0.36 ad2 42.2 37.8 12.4 9.2 4.9 106.5 0.18 ad3 7.2 12 9.9 1.7 2.5 33.3 0.06 pp1 136.1 98 43 169.7 28.7 475.5 0.8 pp2 25.5 262.3 143.8 37 27.9 496.5 0.83 cj1 27.8 20.6 18.2 21.8 12.3 100.7 0.17 cj2 4 7.7 13.2 5.9 4.9 35.7 0.06 Wd1 43.8 151.3 114.1 25.2 37.7 372.1 0.62 Wd2 324.6 929.6 772.8 226.9 242.6 2496.5 4.18 Wd3 1102 1634.7 1815 757.1 359.8 5668.6 9.49 Wd4 585.6 829.8 443.8 403.3 427 2689.5 4.5 Wd5 410.6 613.1 518.2 265.5 171.3 1978.7 3.31 Wd6 27.1 37 22.3 34.5 29.5 150.4 0.25 Wd7 261.8 430.8 261.2 228.6 209.8 1392.2 2.33 cc1 72.4 65.4 76 23.5 36.1 273.4 0.46 cc2 35 177.1 49.6 6.7 21.3 289.7 0.49 Cc3 168.7 514.2 417.4 75.6 112.3 1288.2 2.16 Cc4 64.5 94.6 134.7 42 39.3 375.1 0.63 Cc5 23.9 40.4 29.8 5 4.1 103.2 0.17 Cc6 17.5 12 6.6 2.5 1.6 40.2 0.07 Sn1 419.3 596.8 576.9 118.5 42.6 1754.1 2.94 Sn2 424.9 389.6 303.3 132.8 76.2 1326.8 2.22 Sn3 10.3 20.6 17.4 2.5 10.7 61.5 0.1 Sn4 17.5 24.9 6.6 20.2 4.9 74.1 0.12 Sn5 9.5 14.6 17.4 2.5 4.9 48.9 0.08 Sn6 84.3 41.3 39.7 41.2 1.6 208.1 0.35 Sn7 49.3 55.9 63.6 23.5 3.3 195.6 0.33 Sn8 1103.6 446.3 862.1 493.2 231.9 3137.1 5.25 Sn9 861.7 573.6 337.2 649.5 322.9 2744.9
4.6 总计 1410
5.2 16160.6 13935.9 8883.4 6633.
8 59718.9
100
中国学习者最常见的言语失误
类型st2 st3 st4 st5 st6 总计百分比fm1 1928.8 2877.4 2112.6 1826.7 1686.7 10432.2 1 wd3 1102 1634.7 1815 757.1 359.8 5668.6
fm3 1474.4 731.8 405.8 694.1 174.6 3480.7
sn8 1103.6 446.3 862.1 493.2 231.9 3137.1
sn9 861.7 573.6 337.2 649.5 322.9 2744.9
wd4 585.6 829.8 443.8 403.3 427 2689.5
wd2 324.6 929.6 772.8 226.9 242.6 2496.5
vp6 1165.7 356 311.6 379.8 215.6 2428.7
vp3 374 524.6 785.2 273.1 327 2283.9
np6 374 654.4 481 358.8 354.1 2222.3
wd5 410.6 613.1 518.2 265.5 171.3 1978.7
fm2 349.3 448.9 438.9 226.9 328.7 1792.7
sn1 419.3 596.8 576.9 118.5 42.6 1754.1
wd7 261.8 430.8 261.2 228.6 209.8 1392.2
vp1 259.4 325.9 498.4 103.4 200.8 1387.9
sn2 424.9 389.6 303.3 132.8 76.2 1326.8
cc3 168.7 514.2 417.4 75.6 112.3 1288.2
np3 202.1 247.7 249.6 210.9 186 1096.3
vp9 111.4 274.3 278.5 42.9 86.1 793.2
np7 237.9 107.5 89.3 174.8 54.9 664.4
pr1 82 236.5 205 89.9 18.9 632.3
从上表可看出,
1.词形的3种失误(拼写、构词、大小写)均在其中,而拼写
更是居榜首,占失误中的17.47%。
3种失误合并共占20.57%。
2.词汇失误7种中有5种(替代、缺少、词类、冗余、歧
义),占失误中的23.81%。
3.句法失误9种中有4种(结构缺陷、标点符号、不断句、片
段),占失误中的15.01%。
4.动词词组9种中有4种(时态、主谓不一致、及物性、情
态),占失误中的11.54%
5.名词词组9种中有3种(数、主谓不一致、冠词),占
6.67%。
6.其他失误(动词/名词搭配、代词指称),占3.22%。
35 CHALLENGE 18 TRADITIONAL 14 UNIVERSITY 10 ENERGY
34 TECHNOLOGY 17 CREATE 13 FINANCIAL 10 HAPPINESS
32 BENEFIT 17 GRAMMAR 13 GREAT 10 INDIVIDUALS
32 EUTHANASIA 17 NECESSARY 13 MOREOVER 10 PURSUE
30 BECAUSE 17 PEOPLE 13 OPPORTUNITY 10 RAISE
28 LANTERNS 17 SATURDAY 13 PRACTICAL 10 SHOULD
28 REALIZE 17 THEORETICAL 13 RECEIVED 10 SUCCESS
27 COLLEGE 17 THOUGHT 13 YOURSELF 10 THEREFORE
26 INTERESTING 16 CONTROL 12 EXPECTANCY 10 TRAVELING
25 COMMODITIES 16 CONVENIENT 12 FACTORIES 10 WASTE
25 LANTERN 16 POPULATION 12 OPPORTUNITIES 10 WHETHER
25 SUDDENLY 16 WILLIAM 12 PRACTICES
24 IMPORTANT 15 BEGINNING 12 TRANSPORTATION
中国学习者词汇失误表
失误类
型St2 St3 St4 St5 St6 总计百分比
Wd1 43.8 151.3 114.1 25.2 37.7 372.1 0.62
Wd2 324.6 929.6 772.8 226.9 242.6 2496.5 4.18
Wd3 1102 1634.7 1815 757.1 359.8 5668.6 9.49
Wd4 585.6 829.8 443.8 403.3 427 2689.5 4.5
Wd5 410.6 613.1 518.2 265.5 171.3 1978.7 3.31
Wd6 27.1 37 22.3 34.5 29.5 150.4 0.25
Wd7 261.8 430.8 261.2 228.6 209.8 1392.2 2.33。