“文本挖掘与话语研究”专栏
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020年7月Jul.2020
天津外国语大学学报
Journal of Tianjin Foreign Studies University
第27卷第4期
Vol.27No.4
“文本挖掘与话语研究”专栏
主持人语(汪顺玉):
数字时代的话语生产者正在以惊人的速度和量级生产和传播话语。
得益于网络技术助推的数据革命以及计算机软、硬件技术助推的计算革命,这些真实话语大数据的获取和计算都已经成为现实。
新兴蓬勃发展的文本挖掘技术能够从海量的自然语言文本中获取有价值的语义和情感信息。
主题模型、文本聚类、结构化特征提取、情感分析等技术能超越目前基于Antconc或WordSmith工具的词汇(或N-元结构)语法结构频度分布的语料库话语分析限制,也能够超越基于主流文献计量工具提供关于文献背景信息(而非文献本身)的词共现或主题网络分析的限制,为文本分析提供望远镜和显微镜式的量化分析,拓展话语量化研究新视野。
这些新变化能够为话语研究获取新数据、提供新方法、解决新问题。
本栏目的四篇文章涉及学术话语、政治话语、科技话语,使用了对应分析、主题模型、情感分析方法,既有体现无监督学习的主题模型、文本相似度计算,也有基于情感字典的文本情感分析。
西安外国语大学汪顺玉的《中国学生英语讲述中国故事的话语方式研究—
—基于文本挖掘的发现》以2018年北京词网公司开展的全国英语写作“百万同题”竞赛写作语料库为研究材料,应用R和T-Lab分析工具进行了文本聚类、文本相似性、主题模型方法对初中、高中、高职院校、普通高校、重点高校的13500篇作文进行分析,发现了不同层次学校学生用英语讲述中国故事的话语构建模型的异同。
重庆大学钱深华和重庆邮电大学刘靓的《基于情感词典的中国英语学习者写作文本的情感挖掘研究》主要基于R的语言查询与字词计数法,对来自五种类型院校的734578篇作文文本进行情感挖掘,发现正向情感中高中学生文本在五类院校中最高,初中学生文本最低,而负向情感中初中文本的焦虑、愤怒、悲伤相关的情感词汇频数皆为五类院校中最高。
大连理工大学刘文宇和胡颖的《基于文本挖掘的非传统文本批评话语研究》在介绍文本挖掘主题模型的基础上,利用Python和KH Coder对美国总统特朗普的涉华政治话语进行主题模型分析,并揭示其隐藏的意识形态意义。
重庆邮电大学王晶的《虚拟公共领域中信息通信技术的话语建构》运用爬虫技术从网页上抓取信息通信技术的科学传播文本,将语料库语言学和批评话语分析结合起来,利用文本分析软件T-Lab梳理信息通信技术在虚拟公共领域中的话语建构现状,进行了科学传播话语的历时比较研究,并尝试探索虚拟公共领域中的科学传播话语生成机制。