中文词汇切分对眼动数据的影响

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中文词汇切分对眼动数据的影响
该研究使用眼动研究中的“边界”技术范式,材料中的关键词为前两个字为双字词的三字词,如“服务员”,和非三字词,如“服务体”,考察可能存在的中文词汇切分策略对眼动时间指标的影响。

实验使用2×2被试内设计,第一个因素是三字词的词频:高频和低频,第二个因素为不同词频条件下的非三字词基线。

实验结果是三字词预视条件下的注视时间短于非三字词预视条件下的注视时间。

结果表明自然阅读中的词汇切分策略确实存在,并且可以在眼动的时间指标上表现出来,结果还暗示在词汇切分过程中,读者在心理词典中对三字词的搜索是必需的过程。

标签:中文阅读;眼动;词汇切分
1 引言
中文文本和英文文本的一个显著不同是英文词汇之间有一个可见空格,而中文词汇之间并没有任何可见的分割标记。

当人为去掉英文文本中词与词之间的空格,阅读速度会减为正常阅读的一半[1,2]。

如果用随机字母填充英文文本中的空格,阅读也会变得困难[3,4]。

因此英文的词间空格可以帮助读者进行阅读。

研究者认为,英文词间空格的重要性体现在两个方面:1)词间空格可以帮助读者辨认当前正在注视的词汇,提高了词汇在心理词典中搜索的速度[5];2)词间空格标示了下一个词的空间位置,读者可以通过副中央窝的加工把下一个注视点定位到下个词的最佳注视位置[6,7]。

一般认为中文读者为了理解一个中文句子,应该自己把中文词汇从一系列汉字中切分出来,如“要避免草率的行为”这句话中的关键词“草率”的第一个汉字为“草”,如果简单的激活“草”这个单字词的语义,对读者理解整句话并没有帮助,有可能还会干扰句子的理解。

有研究表明,在中文词汇间人为加入空格既没有提高阅读速度也没有降低阅读速度[8],实验的数据说明中文自然阅读中的词汇切分过程并不存在。

但导致这个结果的原因也有可能是:词间空格消除了词汇切分,增加了阅读速度,但是空格也把下一个词推到了离注视中心较远的位置,减少了对下一个词的预视,从而降低了阅读速度,因此不能在最后的眼动指标上看到词汇切分的影响。

这就意味着可能无法通过插入词间空格的方法,在整个材料的眼动数据上分析中文词汇切分的影响。

由于中文的独特性,中文在阅读中的眼动指标上有一些和英文不同的特点:1)知觉广度不同。

英文的知觉广度为注视点左侧3~4个字母到注视点右侧14~15个字母[9];但是中文的知觉广度要小一些,为注视点左侧1个汉字到注视点右侧2~3个汉字[10,11]。

2)平均眼跳距离不同。

英文的平均眼跳距离为7~9个字母,而中文的平均眼跳距离为2.6个汉字[12]。

3)英文的词间空格可以引导注视点落在单词的最佳注视位置(一个单词的最佳注视位置为这个单词的中心偏前一点)[13],而中文由于没有词间空格,使得中文读者很难把注视点定位到一个中文词汇的最佳注视位置[14,15]。

中文加工和英文加工在眼动数据上的差异应该是由于中文的词长比较短、字形比较复杂。

在正常阅读条件下,中英文阅读中的眼动数据也有很多类似的方面。

有研究表明中文双字词的词频会影响在这个词上的注视时间,高频词上的注视时间比低频词上的短,并且高频词汇比低频词汇更容易被跳过[16];中文双字词在句子中的预期(即句中关键词前的部分对这个关键词的预期)也会影响在这个词上的注视时间,高预期词上的注视时间比低预期词上的注视时间短,并且高预期词比低预期词更容易被跳过[17]。

但这些研究都是基于中文双字词的,并且假设词汇切分在不同条件下有相同的作用。

为了研究词汇切分的策略,还应该研究词汇长度大于2的词汇,表1给出了《人民日报》的词频统计,这个统计是在超过七千四百万词汇的语料基础上,对五万三千多个不同词汇进行分析得到的。

在普通文本中,95%以上的词汇都为单字词和双字词,三字及三字以上的词汇不到5%,五字以上的词汇占的百分比小于0.01%。

由于四字及四字以上的词汇大都由单字词、双字词和三字词复合而成,且大都为成语和熟语,因此在词汇切分的研究上,可以暂时忽略四字及四字以上的词汇,先研究单字词、双字词和三字词的切分方式。

为了进行中文眼动的研究,需要借鉴相关的英文研究,其中最重要的参考是英文阅读中的眼动控制模型。

阅读中的眼动研究主要是考察外显的眼动行为和大脑内部语言加工的关系[9],经过大量基础研究,在上个世纪末,一些研究者开始提出阅读中的眼动控制模型。

其中最重要的两个阅读中眼动控制模型是:EZ 读者模型[18-20]和SWIFT模型[21,22]。

这两个模型有很多相似的地方,特别是对眼跳潜伏期和注视时间的解释上。

Becker等人在1979年使用双步刺激范式(double-step paradigm)证明了眼跳潜伏期有两个阶段[23]。

眼跳潜伏期的第一个阶段是可变编程阶段,如果在这个阶段接受新的眼跳信号,原有的眼跳会被取消;眼跳潜伏期的第二个阶段是不可变编程阶段,在这个阶段接受的新眼跳信号并不能取消原有的眼跳。

EZ读者
模型和SWIFT模型都使用了这一结论,并且都把语言因素的影响加在眼跳潜伏期的前面。

EZ读者模型认为,读者先对当前词汇进行一段时间的预加工(这段时间的大小受当前词的词频和预期的影响),然后开始眼跳潜伏期。

SWIFT模型认为,在眼跳潜伏期前面有一段随机的时间,这段时间会受到当前词汇加工难度的影响,而词汇的加工难度是由这个词汇的词频和预期决定的。

根据EZ读者模型和SWIFT模型的假设,在一个词上的注视时间等于这个词的词频和预期决定的时间加上眼跳潜伏期的时间,这一假设可以解释为什么高频和高预期词上的注视时间比较短。

在中文文本的阅读过程中,当读者搜索出一个双字词后,在眼跳潜伏期前的词汇切分会如何进行?应该有两种可能:一种是立刻开始眼跳潜伏期,另一种是继续搜索可能的三字词,然后再开始眼跳潜伏期。

第一种假设是有可能的,因为眼跳潜伏期的时间大约有200毫秒[9],读者进入眼跳潜伏期后还有足够的时间继续进行词汇的切分和激活,由于这种假设会使得注视时间比第二种假设下的短,因此这种方式应该更有效率,可以节省总的阅读时间。

第二种假设也是有可能的,在确定当前词是双字词前,读者可能会继续搜索三字词,如果不能发现三字词,才能完全确定当前词汇为双字词,这种方式好像没有第一种假设提供的方式有效率,但是可以用很小的代价(多消耗几十毫秒的加工时间)避免了歧异引起的错误加工。

用大写字母ABC代表一个中文三字词,可以根据相邻字的关系把三字词分为如下四类:第一类为2+1型,这类三字词的前两个汉字AB可以组成一个双字词,但BC不是双字词,如“报告会”;第二类为1+2型,这类三字词的后两个汉字BC可以组成一个双字词,但AB不是双字词,如“大自然”;第三类为1+1+1型,这类三字词的前两个汉字AB和后两个汉字BC都不能组成双字词,如“当事人”;第四类为2+2型,这类三字词的前两个汉字AB和后两个汉字BC 都是双字词,如“大学生”。

为了验证前文提出的两种假设,可以使用前两字为双字词的特殊三字词。

例如高频三字词“服务员”,低频三字词“服务部”和三字非词“服务党”,当读者激活双字词“服务”后,如果继续搜索和激活三字词,在“服务”上的注视时间会受到三字词词频的影响。

反之,如果讀者激活双字词“服务”后,立刻开始眼跳潜伏期,关键词“服务”上的注视时间在不同条件下应该没有差异。

基本研究方法是眼动的边界技术(boundary technique)[24]范式,在读者的副中央窝视觉区呈现会影响分词策略的汉字(三字词的最后一个字),通过分析眼动数据探讨中文词汇的切分方式。

2 三字词预视和非三字词预视条件下的眼动行为
2.1 研究方法
2.1.1 被试
28个大学生参与实验,这些被试的母语都为中文,视力或矫正视力正常,实验结束后得到少量报酬。

2.1.2 实验材料与设计
研究使用了一种特殊的三字词,这种三字词的前两个汉字可以组成另外一个双字词。

例如:“服务员”和“服务部”。

“服务员”是一个高频三字词,而“服务部”是一个低频三字词,这两个三字词共用相同的前两个汉字“服务”,并且这两个汉字可以组成一个双字词。

实验使用了边界技术,即当注视点跨过一个看不见的边界时,屏幕某个部分上的汉字会改变(如一个汉字变为其它汉字),由于这种改变发生在一次眼跳期间,所以被试不会察觉出这种变化。

实验为2×2被试内设计,边界设置在第二个汉字和第三个汉字之间。

第一个因素为预视的三字词词频,共两个水平(高频和低频),如“服务员”和“服务部”,边界设置在“服务”后面;第二个因素为预视类型(是否为三字词预视),非三字词预试条件是三字词预视条件的基线,例如,“服务员”和“服务部”分别的基线是:“服务体”和“服务党”。

在高频三字词预视条件下(材料下面的“*”代表注视点的位置):|
实验有四个条件:高频预视、高频基线、低频预视、低频基线。

共有40个句子框架,通过拉丁方平衡后,每个被试在每种条件下只能看到10个句子框架,句子的差异在被试间得到平衡。

平均的高频三字词词频为:每百万14.7个;平均的低频三字词词频为:每百万0.5个。

高频三字词和低频三字词间的差异显著:
t(39)=3.842,p0.20)。

2.2.2 边界后两个汉字的区域分析
2.2.2.1 首次注视时间
在边界前两个汉字区域上,首次注视时间的预视类型主效应和词频主效应在被试分析(F1)和项目分析(F2)上都不显著(Fs<1.1)。

交互作用也不显著
(F1(1,27)= 2.402, MSE=989, p=0.133; F2<1.1)。

2.2.2.2 单注视时间
单注视时间的词频主效应在被试分析(F1)和项目分析(F2)上都不显著(Fs<1.1),预视类型的主效应不显著(F1<1; F2(1,39)=1.624, MSE=2912, p=0.210),交互作用也不显著(Fs<1.4)。

2.2.2.3 凝视时间
凝视时间的预视主效应、词频主效应和交互作用都不显著(Fs<1.3)。

2.2.2.4 总注视时间
总注视时间的词频主效应在被试分析(F1)和项目分析(F2)上都不显著(Fs<1.1),预视类型的主效应也不显著(F1<1.1; F2(1,39)=1.402, MSE=9003,
p=0.243),交互作用在被试分析(F1)上显著(F1(1,27)= 6.348, MSE=3238, p
<0.05),在项目分析(F2)上边缘显著(F1(1,39)=3.780, MSE = 7952, p=0.059)。

通过配对样本t检验,发现低频三字词条件及其基线条件的差异在被试分析(t1)和项目分析(t2)上都不显著(ts<1)。

但是高频三字词条件及其基线条件的差异
在被试分析上边缘显著(t1(27)= 2.041, p=0.051),在项目分析上显著(t2(39)= 2.206,p<0.05)。

2.2.2.5 第二遍注视时间
第二遍注视时间的词频主效应在被试分析(F1)和项目分析(F2)上都不显著(F1<1; F2(1,39)=2.276, MSE=1359, p=0.139),预视类型的主效应在被试分析(F1)和项目分析(F2)上都显著(F1(1,27)=5.995, MSE=938, p<0.05;
F2(1,39)= 6.489, MSE=1315, p<0.05)。

交互作用在被试分析(F1)上显著(F1(1,27)= 4.647, MSE=789, p<0.05),在项目分析(F2)上边缘显著(F1(1,39)= 3.467, MSE = 1396, p=0.070)。

通过配对样本t检验,发现低
频三字词条件及其基线条件的差异在被试分析(t1)和项目分析(t2)上都不显著(ts<1)。

但是高频三字词条件及其基线条件的差异在被试分析边缘显著
(t1(27)=2.701, p=0.012),在项目分析上显著(t2(39)=3.092, p<0.01)。

2.2.2.6 跳过率
预视类型的主效应、词频的主效应以及交互作用在被试分析(F1)和项目分析(F2)上都不显著(Fs<1)。

由上述分析可见,在自然阅读中,当预视条件是一个三字詞(“服务员”),在前两个字区域(“服务”)上的眼动时间指标都比预视条件为非三字词(“服务体”)要短,并且差异显著。

高频三字词前两个字上的凝视时间比其基线条件下的凝视时间短27毫秒,低频三字词前两个字上的凝视时间比其基线条件下的凝视时间短15毫秒。

在前两个字区域的第二遍阅读时间也受到了预视类型的影响,三字词预视条件下的第二遍注视时间比非三字词预视条件下的要长。

其原因可能是三字词被激活,但跨过边界后,已经激活的三字词消失,被试后来重新阅读前两个字的区域并再次进行词汇切分。

边界后两个字区域的首遍阅读时间(首次注视时间、单注视时间和凝视时间)都没有受到词频条件和预视类型的影响,可能的原因是:在跨过边界前,这个区域被遮盖,而跨过边界后,这个区域的两个遮盖汉字变成一个双字词,所以首遍注视时间可能主要是受这个双字词加工的影响,不受边界前条件的影响。

但是和边界前的两字区域一样,边界后两字区域上的第二遍注视时间受到了预视类型的影响。

其原因应该和对边界前两字区域的解释相同,是重新进行词汇切分的结果,读者本来要回视到边界前两字区域,但是由于回视定位误差,回视到边界后两字的区域,或者回视到边界后两字区域一样可以重新切分。

4 讨论
中文文本和英文文本的一个重要的不同就在于英文词汇有明显的词间空格,而中文文本需要读者使用某种策略对词汇进行分割。

研究使用一种特殊的三字词:“服务员”和“服务部”,通过“边界”技术,在读者的副中央窝上呈现导致不同切分方式的汉字。

通过分析双字词“服务”上的眼动指标,考察词汇切分对注视时间的影响。

实验结果表明,在副中央窝上呈现三字词,特别是高频三字词时,读者加工得更快。

从实验结果可以看出,眼动指标的确可以反映出词汇切分策略的影响。

如果中文词汇的切分是以双字词为基本分割单元,读者找到一个双字词后,就进行激活,那么在副中央窝呈现不同的词汇切分方式应该不会影响双字词上的眼动指标,但是实验结果否定了这一假设。

词汇切分的基本分割单元至少是三个汉字,如果把非三字词“服务体”和“服务党”作为词频极低的三字词,就可以更直观地理解实验结果。

眼动控制模型是眼动领域中很重要的一个子研究领域,它主要考察了阅读中的语言因素和眼动生理控制因素如何相互作用产生实际的眼动数据。

英文中已经有比较成熟的眼动控制模型(如EZ读者模型和SWIFT模型等),但中文眼动控制模型的研究还处在起步阶段。

使用英文眼动控制模型解释中文阅读现象的一个重要障碍是中文自然阅读要受到词汇切分策略的影响。

研究发现当读者搜索出一个双字词后,还会继续参考这个双字词后面的汉字,搜索可能的三字词,如果心理词典中没有发现这个三字词,读者就能够确定当前的词汇为双字词,如果在心理词典中找到了这个三字词,读者就可以直接激活这个三字词。

可以使用英文眼动控制模型中比较常用的方法,形象的说明词汇切分对注视时间的影响。

如图1所示,EZ读者模型和SWIFT模型认为,注视时间由两个部分组成:受语言因素影响的一段“预加工时间”和“眼跳潜伏期”所需要的一段时间。

由于EZ读者模型和SWIFT模型都认为“眼跳潜伏期”在统计上稳定,不受语言因素的影响,而“预加工时间”要受到当前加工词汇的词频和预期的影响,低频词和低预期词的预加工时间比高频词和高预期词的长,从而导致在低频词和低预期词上的注视时间要比高频词和高预期词上的注视时间长。

预加工时间眼跳潜伏期
注视时间
中文词汇的切分对中文词汇上的注视时间也有影响,为了使用英文眼动控制模型解释中文阅读现象,可以把中文词汇切分的影响加入“预加工时间”里,即对英文眼动控制模型里的“预加工时间”进行细分。

对本研究来说,可以把“预加工时间”分为两段:“双字词搜索阶段”和“三字词搜索阶段”,如图2所示。

双字词搜索阶段三字词搜索阶段
预加工时间
06
那么中文阅读中一个注视点上的时间可以分为三个阶段:双字词搜索阶段,三字词搜索阶段和眼跳潜伏阶段。

这个三阶段模型可以解释为什么高频和高预期的双字词上的注视时间较短:由于高频和高预期双字词的“双字词搜索阶段”比较短,而“三字词搜索阶段”和“眼跳潜伏期”在高低频条件下一致,所以高频和高预期三字词上的注视时间比低频和低预期上的注视时间短。

这个模型也可以解释本研究的结果:由于在本研究不同条件下,“双字词搜索阶段”和“眼跳潜伏期”上的时间没有差异,而高频三字词条件下的“三字词搜索阶段”比低频三字词和三字非词条件下的“三字词搜索阶段”短,从而导致三字词预视条件下的注视时间比非三字词条件下的注视时间短。

5 结论
总的来说,当前的研究发现,在中文自然阅读过程中:1)词汇切分策略对眼动指标有影响;2)在词汇切分中,三字词搜索是必须的;3)完善的词汇切分策略是发展中文眼动控制模型的关键。

参考文献
1 Fisher D F. Spatial factors in reading and search: The case for space. In: Monty R A, Senders J W. Eye movements and psychological processes. Hillsdale,NJ:Erlbaum,1976.417-427.
2 Malt B C,Seamon J G.Peripheral and cognitive components of eye guidance in filled-space reading. Perception And Psychophysics,1978,23: 399-402.
3 Morris R K, Rayner K, Pollatsek A. Eye movement guidance in reading: The role of parafoveal letter and space information. Journal of Experimental Psychology: Human Perception and Performance,1989,16: 268-281.
4 Pollatsek A,Rayner K.Eye movement control in reading: The role of word boundaries.Journal of Experimental Psychology: Human Perception and Performance, 1982, 8: 817-833.
5 Inhoff A W, Radach R, Heller D. Complex compounds in German: Interword spaces facilitate segmentation but hinder assignment of meaning. Journal of Memory and Language, 2000, 42: 23-50.
6 McConkie G W, Kerr P w, Reddix M D, et al. Eye movement control during reading: I. The location of initial eye fixations on words. Vision Research,1988,28: 1107-1118.
7 Radach R, McConkie G W. Determinants of fixation positions in words during reading. In:Underwood G. Eye guidance in reading and scene perception. Amsterdam: Elseview, 1998.77-100.
8 Bai X J, Yan G L, Liversedge S P, et al.. Reading spaced and unspaced Chinese text: Evidence from eye movements.2007, Submitted.
9 Rayner K. Eye movements in reading and information processing: 20 years of research. Psychological Bulletin,1998,124: 372-422.
10 Chen H C, Tang C K. The effective visual field in Chinese. Reading and Writing,1998,10: 245-254.
11 Inhoff A W, Liu W. The perceptual span and oculomotor activity during the reading of Chinese sentences. Journal of Experimental Psychology: Human Perception and Performance, 1998, 24: 20-34.
12 Chen H C, Song H, Lau W Y, et al..Developmental characteristics of eye movements in reading Chinese. In: McBride-Chang C, Chen H C. Reading development in Chinese children.Westport, CT:Praeger,2003: 157-169.
13 Radach R,McConkie G W. Determinants of fixation positions in words during reading. In: Underwood G. Eye guidance in reading and scene perception. Amsterdam: Elsevier, 1998: 77-100.
14 Tsai J L, McConkie G W. Where do chinese readers send their eyes? In: Hyona J, Radach R, Deubel H. The mind’s eye: Cognitiv e and applied aspects of eye movements research. Amsterdam: Elsevier, 2003.159-176.
15 Yang H M, McConkie G W. Reading Chinese: Some basic eye-movement characteristics. In: Wang J, Inhoff A W, Chen H C. Reading Chinese Script: A cognitive analysis. Mahwah, NJ: Erlbaum, 1999: 207-222.
16 Yan G L, Tian H J, Bai X J, et al.. The effect of word and character frequency on the eye movements of Chinese readers. British Journal of Psychology, 2006, 97: 259-268.
17 Rayner K, Li X S, Juhasz B J, et al.. The effect of word predictability on the eye movements of Chinese readers.Psychonomic Bulletin & Review, 2005, 12: 1089-1093.
18 Reichle E, Pollatsek A, Fisher D L, et al.. Towards a model of eye movement control in reading. Psychological Review, 1998, 105: 125-157.
19 Rayner K, Ashby J, Pollatsek A, et al.. The effects of frequency and predictability on eye fixations in reading: Implications for the E-Z Reader model.Journal of Experimental Psychology:Human Perception and Performance, 2004, 30: 720-732.
20 Pollatsek A, Reichle E D, Rayner K.Tests of the E-Z Reader Model: Exploring the interface between cognition and eyemovement control. Cognitive Psychology,2006,52:1-56.
21 Engbert R, Longtin A, Kliegl R. A dynamical model of saccade generation in reading based on spatially distributed lexical processing. Vision Research, 2002, 42: 621-636.
22 Engbert R, Nuthmann A, Richter E M. SWIFT: A Dynamical Model of Saccade Generation During Reading.Psychological Review, 2005, 112: 777-813.
23 Becker W, Jurgens R. An analysis of the saccadic system by mean of double step stimuli. Vision Research, 1979, 19: 967-983.
24 Rayner K. The perceptual span and peripheral cues in reading. Cognitive Psychology,1975,7:65-81.
The Processing of 3-Character Word is Faster than
2-Character Word in Chinese Reading
Wu Jun Mo Lei Leng Ying
(Centre for Psychological Application, South China Normal University, Guangzhou 510631)
Abstract:“Boundary technique” has been used in this study to examine the influnence of Chinese word segmentation on eye movements data. The study used a special 3-char words in which the first two characters can form a 2-char words. The study had two factors: the frequency of 3-char words vs. baseline condition. The results showed that the high frequency 3-char words processed faster than the low frequency ones and the baseline conditions. The results demonstrated that the Chinese words segmentation can influence the first pass measurements and the Chinese readers will search the possible 3-char words before they process words further.
Key words:Chinese reading; eye movements;word segmentation。

相关文档
最新文档