BCC语料库使用指南
BCC语料库使用指南

1 、字处理(包括标点符号)[C]:错字标记,用于标示考生写的不成字的字。
用[C]代表错字,在[C]前填写正确的字。
例如:地球[C](“球”是错字)、这[C]。
[B]:别字标记,用于标示把甲字写成乙字的情况。
别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。
把别字移至[B]中B的后面,并在[B]前填写正确的字。
例如:提[B题]高、考虑[B虎]。
[L]:漏字标记,用于标示作文中应有而没有的字。
用[L]表示漏掉的字,并在[L]前填写所漏掉的字。
例如:后悔[L],表示“悔”在原文中是漏掉的字。
农[L]药,表示“农”在原文中是漏掉的字。
[D]:多字标记,用于标示作文中不应出现而出现的字。
把多余的字移至[D]中D的后面。
例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。
[F]:繁体字标记,用于标示繁体字。
把繁体字移至[F]中F的后面,并在[F]前填写简体字。
例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。
注意:1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。
例如:俭朴[F樸[B僕]]。
2)繁体字写错了,标为:后[F後[C]]。
[Y]:异体字标记,用于标示异体字。
把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。
例如:偏[Y徧]、沉[Y沈]。
[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。
把拼音字移至[P]中P的后面,并在[P]前填写简体字。
例如:缘[Pyúan]分、保护[Phù]。
[#]:无法识别的字的标记,用于标示无法识别的字。
每个不可识别的字用一个[#]表示。
例如:更[#][#]保存自己的生命,……[BC]:错误标点标记,用于标示使用错误的标点符号。
把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。
例如:勤奋、[BC,]刻苦的精神。
[BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。
双语平行语料库的制作流程

双语平行语料库的制作流程
1.数据收集:首先需要收集源语言和目标语言的文本数据。
可以通过
多种方式来收集数据,例如爬取网页内容、使用现有的翻译软件或者借助
专业翻译人员进行翻译。
2.文本对齐:在收集到源语言和目标语言的文本数据后,需要进行文
本对齐。
文本对齐是将源语言和目标语言的句子按照语义和结构进行对应,创建文本对。
这个过程可以手动完成,也可以使用自动对齐工具来辅助完成。
4.词对齐:在文本对齐之后,为了进一步提高平行语料库的质量,可
以进行词对齐。
词对齐是在句子级别基础上,将源语言和目标语言的词语
进行对齐,创建词级对齐。
5.质量评估:对于制作好的双语平行语料库,需要进行质量评估。
可
以通过对比机器翻译的质量、翻译准确度等指标来评估平行语料库的质量。
6.更新和维护:制作好的双语平行语料库需要定期进行更新和维护,
以保持其质量和实用性。
可以定期收集新的源语言和目标语言的文本数据,并进行文本对齐、清洗和词对齐等操作。
同时,也可以通过删除低质量的
文本对来优化平行语料库。
总结起来,制作双语平行语料库的流程包括数据收集、文本对齐、清
洗和预处理、词对齐、质量评估以及更新和维护。
这个过程需要耗费一定
的时间和精力,但制作好的双语平行语料库对于机器翻译、自然语言处理
等领域的研究和应用具有重要意义。
杨百翰大学BNC语料库使用说明-中文版

32
33
• 2.4.2 比较反义词
• 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.4.2
规则:在words的方格里分别输入woman和man,再在context方
框里输入[aj*],选在左3,表示前面3个跨距内所有的形容词。当然
也可以比较在某个子语料库中出现的频率比较。
• 需要工具: • 1. 文本编辑器 • 2. MS-word
42
• 以上方法同样可以用于检索代表当代美国 的语料库 ,以及以不同年代的TIME做成的 历史语料库
43
谢谢!
杨百翰大学BNC语料库使用说明-中 文版
杨百翰大学BNC语料库简介
• 1. 简介 • 1.1 通过这个网址,可以搜索到100 million
词的British National Corpus (1970s1993). (当然现在Corpus of Contemporary American English(19902009)能在线免费提供 400+ million 词,在 线网址为:)
(图2.1.2-2),检索表达式为:white [n*]
10
图2.1.2-1
•规则:输入名词的话用正则表 达式: [n*];动词: [v*]; 形容词: [aj*]; 副词: [av*]……
11
图2.1.2-2
White+名词的短语
12
• 2.1.3 输入通配符(wildcards),如分别输入 un*ly和r?n*,结果如图2.1.3-1和.2.1.3-2
1.2 BYU-BNC界面简介
5
• 2. 主要搜索功能 • 2.1 搜索words、phrases、lemmas、
常见语料库使用入门

8
公共语料库检索
国外18个知名英语语料库
01.国际英语语料库 (ICE):http: ///english-usage/ice/htm 02.美国国家语料库(ANC):/ 03.美国当代英语语料库(COCA):/ 04.美国近当代英语语料库(COHA):/coha/ 05.英国国家语料库(BNC):/bnc/ 06.柯林斯英语语料库(BOE):/wordbanks/ 07.英国英语语料库(SEU):http: ///english-usage/ 08.澳大利亚英语语料库(ACE):http: //khnt.hit.uib.no/icame/manuals/ 09.新规范语料库(NMC):http: ///
词性标记 句法标记 词义标记 篇章指代标记 韵律标记 ……
材料/工具准备阶段
若只是要词频数据, 则生语料库足够, word/wps或txt记事本 都可以建立word/wps 的“查找替换”工具 即可, txt记事本的“编辑-查 找”工具也行。
生语料库 加 工 标 注
熟语料库
“宏”
39
个人语料库创建
生 语 语 料 库
熟 语 语 料 库
3
语料库及其分类
第二节 公共语料库检索
4
公共语料库检索
统计频率
基 于 检 索
查找例句
参 数 设 置
带着 问题
收集 证据
验证分析
5
公共语料库检索
我国21个知名语料库
01.中央研究院近代汉语标记语料:.tw/Early_Mandarin/ 02.中央研究院汉籍电子文献:.tw/ftms-bin/ftmsw3 03.国家现代汉语语料库:http://124.207.106.21:8080/ 04.国家语委现代汉语语料库:/retrieval/index.html 05.树图数据库:.tw/ 06.语料库语言学在线: 07.北京大学CCL语料库:/Yuliao_Contents.Asp
双语平行语料库的制作流程

双语平行语料库的制作流程1.数据收集:首先需要收集双语文本数据。
可以通过多种渠道获得,包括网络爬虫、公开数据库、专业机构的数据集等。
收集到的数据应涵盖各个领域的文本,以便在不同领域的实际应用中使用。
2.预处理:收集到的数据通常需要进行预处理,以确保数据的质量和一致性。
预处理的步骤包括:-分割句子:根据标点符号或换行符将文本分割成句子。
-标准化:将数据转换为统一的格式,如转换为小写、标准化日期和数字格式等。
-分词:将句子划分成单词或短语的序列,通常使用现有的分词工具。
3.对齐:对齐是将双语文本进行匹配的过程,以确定源语言和目标语言之间的对应关系。
常见的对齐方法包括基于规则的对齐和基于统计的对齐。
在基于规则的对齐中,研究人员根据语言对之间的特征和规则手动对齐句子。
而基于统计的对齐则利用计算机算法自动匹配句子。
4.清洗:对齐后,需要对语料进行清洗,以去除低质量的对齐数据和噪声。
常见的清洗方法包括:-去除标点符号和特殊字符。
-去除长度不一致的句对。
-去除重复数据和重复句子。
-去除机器翻译和错误对齐的数据。
5.评估:评估是对制作的平行语料进行质量检查的步骤。
评估通常包括两个方面:- 句子级评估:比较源语言和目标语言之间的对齐质量,判断对齐是否准确。
可以使用BLEU(Bilingual Evaluation Understudy)等自动评估指标来评估翻译质量。
-文本级评估:评估语料库的覆盖度、平衡性和多样性等。
可以通过检查词汇表的覆盖范围、领域和主题的分布来评估。
6.存储和管理:制作好的双语平行语料库需要进行存储和管理。
可以使用数据库、文件系统或特定的双语平行语料库管理工具来存储和管理平行语料库。
此外,还可以使用标记文件格式(如XML或JSON)对语料进行标注,以便更好地进行检索和利用。
总结起来,制作双语平行语料库的流程包括数据收集、预处理、对齐、清洗和评估等多个步骤。
每个步骤都需要仔细进行,以确保制作出高质量的双语平行语料库,以支持各种自然语言处理任务的研究和应用。
大数据背景下BCC语料库的研制_荀恩东

95
大数据背景下 BCC 语料库的研制
共时语料和历时语料兼备 BCC 对报刊语料和文学作品标注了时间信息,其中文学作品的时间信息体现 在 BCC 的“自定义”功能应用上,用户可以选定某时间的文学作品进行限定检 索;BCC“历时检索”主要是报刊语料,语料来自 1945 年至 2015 年的《人民日 报》 。历时检索是以图形可视化方式呈现的。 BCC 语料库使用了语料采集、加工和语言分析处理等多种工具,例如对现代 汉语进行分词和词性标注。为了完成语料采集、加工、标注等工作,开发了 BCC 语料库采集和加工平台,主要包括: 网上语料采集工具 BCC 语料库中的语料主要源自互联网的页面文本,利用采集工具自动下载网 页,把网页数据保存到本地。 语料加工整理工具 将网络作为语料库,是将以自然语言形式存在的整个网络电子文本当作一个 庞大的语料库,可以通过征调主流搜索引擎的应用程序调用接口,获取搜索引擎 。BCC 语料加工 的返回结果,再对其进行相应的语料库统计分析(熊文新 2015) 整理的方式主要为:从网页中提取原数据信息,包括名称、出处等;网页数据清 洗,从网页数据中剔除非内容数据,提取有效文本内容;对数据进行自动断句处 理,为后续语言分析做准备;异常重复句子甄别和处理,剔除网页数据清洗阶段 不能甄别的重复句子。 语言自动分析工具 原始语料完成断句后,在语言分析阶段对句子进行分词和词性标注处理。中 文词性标注采用北京大学计算语言研究所提出的词性标注体系(俞士汶等 2000, 2002) ,英文词性体系采用美国宾州大学词性体系。目前,BCC 可以对现代汉语、 英语、法语的语料进行自动分词和词性标注处理。 语料库标注平台 该平台的目标是通过人工标注来构建专门语料库。 2.2 BCC 检索引擎 语料库建设是围绕内容进行的,用户通过检索使用语料库数据,而使用的检 索功能是通过检索引擎实现的,因此检索引擎的性能直接影响语料库系统的使用 体验。使用体验体现在多个方面,包括对数据规模的支持程度、语料类型的支持 程度、响应检索的时空开销、检索式的支持功能、对服务器软硬件的适应性等。 BCC 检索引擎具有以下特点:
语料库常用统计方法

语料库常用统计方法在当今信息爆炸的时代,语料库作为一种大规模的语言数据集,对于语言学研究、自然语言处理、翻译研究等领域都具有重要意义。
而要从海量的语料中提取有价值的信息,就需要运用各种统计方法。
接下来,让我们一起深入了解一些语料库常用的统计方法。
一、词频统计词频统计是语料库分析中最基础也最常见的方法之一。
简单来说,就是计算某个词在语料库中出现的次数。
通过词频统计,我们可以了解到哪些词在特定的语料中使用最为频繁,哪些词相对较少出现。
例如,在一个关于科技新闻的语料库中,“人工智能”“大数据”等词可能会有较高的词频,而在一个文学作品的语料库中,“情感”“风景”等词可能更常见。
词频统计不仅能帮助我们快速把握语料的主题和重点,还能为词汇的重要性排序提供依据。
为了进行词频统计,首先需要对语料进行预处理,包括分词、去除标点符号和停用词(如“的”“了”“啊”等常见但对语义影响不大的词)。
然后,通过编程语言(如 Python)中的相关库(如 collections 库)或者专门的语料库分析工具(如 AntConc),可以轻松实现词频的计算和排序。
二、词汇多样性统计词汇多样性是衡量语言丰富程度的一个重要指标。
常见的词汇多样性统计方法包括类符/形符比(TypeToken Ratio,简称 TTR)和标准化类符/形符比(Standardized TypeToken Ratio)。
类符指的是语料库中不同的单词,形符则是单词出现的总次数。
TTR 就是类符数量除以形符数量。
例如,一个包含100 个单词的文本,其中不同的单词有 50 个,那么 TTR 就是 05。
然而,TTR 会受到文本长度的影响,文本越长,TTR 往往越低。
为了克服这一问题,标准化类符/形符比通过对文本进行分段计算 TTR,然后取平均值来得到更稳定和可靠的结果。
词汇多样性统计对于比较不同作者、不同文体、不同语言的文本特点具有重要意义。
一般来说,文学作品的词汇多样性往往高于科技文献,而高水平的作者通常能够在作品中展现出更高的词汇多样性。
[转载]语料库工具箱用户指南(ACWT)
![[转载]语料库工具箱用户指南(ACWT)](https://img.taocdn.com/s3/m/d7b56be3f71fb7360b4c2e3f5727a5e9856a27d9.png)
[转载]语料库⼯具箱⽤户指南(ACWT)原⽂地址:语料库⼯具箱⽤户指南(ACWT)作者:gjxyxkgy主页:/alc/chinese/ACWT/ACWT.htm软件下载:/alc/chinese/ACWT/ACWT.zip1.什么是“语料库⼯具箱”ACWT?语料库⼯具箱(ACWT)是指嵌⼊到⽂字处理软件NoteTab中的⼀组模块(clips),Perl代码及其他⼀些中英⽂⽂本处理⼯具。
这些⼯具可以帮助处理⼀些通常需要昂贵复杂的商业软件才能实现的“⼜脏⼜累”的语料库和话语分析、处理⼯作。
⽬前“⼯具箱”中主要包括以下组件:Text Utilities⽂本处理Merge Files档合并HTML<-->Text Conversion HTML-TXT格式相互转换Tagged Text-->Plain Text Conversion去除标注⽂本中的标记File comparison/sizes/counts⽂本⽐较/檔⼤⼩/字数统计/分割/和并Chinese Character Spacing/Word Segmentation/POS Tagging汉字分字/分词/词性标注Search&Analysis检索统计Basic Chinese Concordance简单汉语检索Basic English Concordance简单英语检索Word List/Frequency词表/词频表Mutual Info/T-Score/Z-Score/Log-likelihood互现信息/T值/Z值/Log-likelihoodNormed Freq/Ratio/Lexical Density常态化频率/型次⽐/词汇密度Interactive Text Tagging互动加码L2 Errors–The CLEC Tags⼆语学习者错误代码—CLEC赋码集Discourse Structure–Samples话语结构标注—样例Semantics&Pragmatics–Samples语义语⽤标注—样例Sociolinguistics–Samples社会语⾔学标注—样例Syntax–Samples句法标注—样例Discourse Transcription⼝语转写The Du Bois System-DuBois最新⼝语转写体系-2005-08Header Info头⽂件信息Voice Quality⾳质Turn Taking话轮转换Conversation Structure会话结构Metalinguistic元语⾔特征2.安装要运⾏这些组件需要安装4.5及以上版本的NoteTab⼯具,Perl(译码)程序,以及下⾯提及的相关⼯具。
中研院现代汉语标记语料库使用说明

「內容檢索」使用說明「內容檢索」的檢索條件詞設定,在於輸入檢索條件詞,在語料庫中將所有在「內容檢索」設定的檢索條件符合者,並在「自訂語料庫」設定範圍內,包含檢索條件詞的文句挑出並顯示。
檢索的方式分兩種:一、單項條件檢索方式:一次設定一項檢索條件;二、多項條件檢索方式:一次設定一項檢索條件,包括「and檢索條件」,以及利用「續設條件」設定「or檢索條件」。
檢索的對象分四種:1. 關鍵詞;2. 重疊詞;3.詞類;4. 特徵。
A.單項條件檢索:一次設定一項檢索條件1.關鍵詞:將滑鼠移到「關鍵詞」的框框內,鍵入欲搜尋的關鍵詞,再將滑鼠移到「執行」按下。
▪關鍵詞可以由下列幾種符號組合而成:▪中文字▪? :表示一個任意字元▪* :表示零至無限多個任意字元▪範例:▪鍵入「電話」,會搜盡包含「電話」的文句。
▪鍵入「電*」,會搜盡包含以「電」開頭的詞(單字詞、雙字詞、多字詞都包括在內,如:電、電話、電視機)的文句。
▪鍵入「電?」,會搜盡包含以「電」開頭的雙字詞的文句。
▪鍵入「*電」,會搜盡包含以「電」結尾的詞(單字詞、雙字詞、多字詞都包括在內)的文句。
▪鍵入「??電」,會搜盡包含以「電」結尾的三字詞的文句。
▪鍵入「*電*」,會搜盡出現過含有「電」的詞(單字詞、雙字詞、多字詞都包括在內)的文句。
▪鍵入「?電?」,會搜盡包含將「電」置於中央的三字詞的文句。
▪鍵入「?電*」,會搜盡包含將「電」置於第二字的詞(雙字詞、多字詞都包括在內)的文句。
▪鍵入「????」,會搜盡含有任何四字詞的文句。
2.重疊詞:將滑鼠移到「重疊詞」的框框內,鍵入欲搜尋的重疊詞種類,再將滑鼠移到「執行」按下。
或者將滑鼠移到「重疊詞」框框旁的箭頭,按一下,即出現四種重疊詞種類,在所欲搜尋的重疊詞種類按一下,再將滑鼠移到「執行」按下。
▪重疊詞種類共分四種,如介面所示:▪重疊詞AAB-如:試試看、走走路▪重疊詞ABB-如:試看看、亮閃閃▪重疊詞AABB-如:高高興興、平平安安▪重疊詞ABAB-如:高興高興、研究研究▪範例:▪鍵入「AAB」,會搜盡含有任何AAB型重疊詞的文句。
刘晓斌等教你用语料库工具和词汇云图换种思路玩儿转语篇教学!

Xu, M., Chen, X. & Liu, X, et al. ing corpus-aided data-driven learning to improve Chine se EFL learners’ analytical reading ability[C]. In: Cheung, S. K. S. et al. (eds.) Technology in Education: Pedagogical Innovations. Singapore: Springer.
■
■
2017
“
”
2018
Data-driven learning DDL
DDL 2004
“”
Leech 2001
“
”
2018
Johns 1993
AntConc WordSmith BNC COCA
DDL
2018
concordance
1 AntConc
2007
take
take
take
1. AntConc take DDL
river writing word in context
4. river writing river
·
writing
DDL
DDL
1. 2007 Unit 5 Keep it up, Xie Lei!
made a summary revised handed the essay in 2.
1 2 3 4 3.
. 2004.
[M]. :
.
. 2018.
[J]. , (11): 32—35
, , . 2019.
[J]. , (5): 29—32
收藏中文公开聊天语料库及使用方法(附链接)

收藏中文公开聊天语料库及使用方法(附链接)
该Github库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。
语料内容
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短信,并对其进行了统一化规整和处理,达到直接可以粗略使用的目的。
使用方法
下载语料
网盘链接:
https:///s/1szmNZQrw
h9y994uO8DFL_A 提取码:f2ex
将解压后的raw_chat_corpus文件夹放到当前目录下目录结构为:raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...
执行命令即可
python main.py
每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。
生成结果格式为tsv格式,每行是一个样本,先是query,再是answer
query \t answer
Github地址:。
常用在线语料库使用简介

COCA
6.1.1 检索某一词形
在显示方式区选择KWIC 并再次点击search, 可得含有“feature”的词语 索引(图6.1.1-4)
图6.1.1-4
COCA
6.1.2 检索某一词性的单词
输入“feature.[v*]”,可得到“feature”做动词时的使 用情况 (图6.1.2-1)
Ⅰ 显示及查询条件界定区,包括:显示方式区, 字串查询区,语料库分类区,查询结果排列方 式区。
Ⅱ 查询结果数据显示区
Ⅲ 例句显示区
COCA
5. COCA界面简介(图5-1)
/coca/ 显示方式区
图5-1
COCA
5. COCA界面简介(图5-1)
或者“制度,观点”的词搭配
图6.2-2
COCA
6.2 检索搭配词
点击conditions可进一步观察prevail的语境 (图6.2-3)
通过观察例句,我们发现与prevail共现的conditions常 有消极意义的词修饰,例如harsh, precarious, daunting, severe, colder and drier, dangerous等
——以BNC、COCA和Sketch Engine 为例
One-word Introduction
英国国家语料库(British National Corpus/BNC): 库 容1亿词的现代英式英语样本集合,文本来源广泛,其 中书面语占90%,口语占10%。
美国当代英语语料库((Corpus of Contemporary American English/COCA): 库容为4.5亿词的大型平 衡语料库,含有多个字库,具有多种检索功能,可免 费在线使用。
语料库 入门

语料库入门
OUTLINE
1.
基本概念 2. 著名网络语料库 3. 常用软件
Corpus(语料库,尸体): (pl. corpora or corpuses): a collection of text, now usually in machine-readable form and compiled to be representative of a particular kind of language and often provided with some kind of annotation(标注). 按照一定的采样标准采集而来的、能 代表一种语言或者某语言的一种变体 或文类的电子文本集。
在口语中,start更常用。
语料库的方法基于真实的语言
使用情况,事实胜于雄辩
我们通过对语料库的检索结果进行分析,可以找到很多问 题的答案,例如: “学知识”在英语中是“study knowledge”吗? “快速导航”翻译成“fast guide”对不对? “只为点滴幸福”这句广告语,对应的英文翻译是“Little happiness matters.”吗? 为何“The bad weather set in on Monday.”是正确的, 但“The good weather set in on Monday.”却是错误的?
熟 语 语 料 库
语料库语言学常用术语
Types
of corpora
General corpus通用语料库 Annotated标注 corpus: a corpus enhanced with various types of linguistic information (or tagged corpus). An annotated corpus may be considered to be a repository of linguistic information, because the information which was implicit in the plain text has been made explicit through concrete annotation (“added value附加值”).
北京语料库检索使用说明

北京语料库检索使用说明首页一关于CCL语料库及其检索系统二关于查询表达式2.1 特殊符号2.2 基本项2.3 简单项2.4 复杂项2.5 过滤项2.6 子旬2.7 查询表达式三关于查询结果四在结果中查找五举例一关于CCL语料库及其检索系统(1)CCL语料库及其检索系统为纯学术非盈利性的。
不得将本系统及其产生的检索结果用于任何商业目的。
CC口承担由此产生的一切后果。
(1)本语料库仅供语言研究参考之用。
语料本身的正确性需要您自己加以核实(1)语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。
比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式(1)语料库中的中文文本未经分词处理。
(1)检索系统以汉字为基本单位。
(1)主要功能特色:支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);支持对标点符号的查询(比如查询”可以检索语料库中所有疑问句);支持在“结果集”中继续检索;用户可定制查询结果的显示方式(如左右长度,排序等);用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。
特殊符号查询表达式中可以使用的特殊符号包括7个:|$#+-~!这些符号分为三组:Operator1:|Operator2:$#+-~Operaotr3:!符号的含义如下:(一)Operator1:Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)|相当于逻辑中的“或”关系。
(二)Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)$表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。
小型语料库建库指南

2. 语域 Proportion of genres in Brown
Constant sample size: ca. 2,000 words
3. 库容量(Corpus size)
Corpus size increases with the development of technology
1960s-70s
Brown and LOB: one million words
CLAWS tagsets
C7 taget A detailed tagset of 146 tags /claws7tags.html C5 tagset Less refined, 61 tags (BNC tagset) /claws5tags.html The mapping between C7 and C5 is a many-to-one conversion, and is available in a tab-delimited text file C8 tagset is an extension of C7 tagset that makes further distinctions in the determiner and pronoun categories as well as for auxiliary verbs /necte/clawstags_c8.pdf
3)网页、电子文档以及电影字幕等素材 A. 通过google查询免费共享的在线语料库 B. 通过 CNN, BBC, VOA, TIME等专题网站获 取本族语原始语料 C. 搜索引擎检索所需语料 A级词汇 filetype:doc B级词汇:filetype: PPT/txt
语言技术计划公共实例语料库查看器基本使用手册说明书

BASIC MANUAL OF USE OF THE PUBLIC INSTANCE OF CORPUS VIEWER PLAN FOR THE ADVANCEMENT OF LANGUAGE TECHNOLOGYJuly/2019INDEXDOCUMENT PURPOSE 3 AVAILABLE DOCUMENTARY CORPUS 3 ACCESS TO CORPUS VIEWER 4 NAVIGATION BY CORPUS VIEWER TOOLS 5 A BRIEF INTRODUCTION TO THE MODELING OF TOPICS 5 VISUALIZING THE TOPICS THAT CHARACTERIZE A DOCUMENTARY CORPUS 6 TÓPICOS: GENERAL VISION TAB 6 TÓPICOS: TOPICS TAB 8 TÓPICOS: DOC-TÓPICOS TAB 10 TÓPICOS: CORRELACIÓN TAB 11 STUDY OF RELATIONS BETWEEN DOCUMENTS BASED ON THEIR TOPICS 12 CORRELACIÓN: DOCUMENTS TAB 12 CORRELACIÓN: ALARMAS TAB 13 DOCUMENTS SIMILAR TO AN ARBITRARY TEXT 15 SEARCH TOOL 161.DOCUMENT PURPOSEThis document provides a basic user guide of the Corpus Viewer platform for analyzing documentary collections, developed within the Language Technology Plan. It allows, through the use of natural language technologies and other artificial intelligence techniques, to analyze large volumes of unstructured textual information and infer relationships between these texts.This application serves as support for those responsible for public policies, both for the design and monitoring of policies, as well as for the management of projects calls exploiting the large collections of unstructured data available.Corpus Viewer is a tool that is in production in different entities of the Public Sector in Spain (SEAD, SEUIDI, FECYT), and users usually receive training several hours prior to their access to the tool. For access to the instance (online demonstrator)It is not practical to propose such training, and the tool itself is not designed to be self-explanatory in all its functionality, which suggests that users have a minimum of documentation to better interpret the information provided by the tool. This guide has been written for that purpose.2.AVAILABLE DOCUMENTARY CORPUSWe understand by corpus, a collection of documents whose content is expressed in natural language.As of January 18, 2020 the following documentary corpus are available in the public instance of Corpus Viewer:●ACL: It is a corpus of scientific publications in the field of computational linguistics(Association of Computational Linguistics).●CORDIS720: Research Projects funded by the European Union within the SeventhFramework and Horizon 2020 Program.●CORDIS720_AI: Contains a selection of previous corpus projects in which ArtificialIntelligence is present, either because the project develops Artificial Intelligence techniques, or because they are used in some scope of application. The selection of the projects included in the subcorpus has been carried out automatically using machine learning techniques. Theuse of these techniques makes it possible to address the labeling of a large number of projects, avoiding the high cost in time that manual labeling would entail, but inevitably implies the introduction of a certain margin of error regarding the selected projects.The following documentary corpus will soon be published on the platform:●Aid from the National Science Foundation (NSF)●American aid in the field of health sciences (NiH)● A corpus of larger scientific publications (based on Semantic Scholar)The publication of these and other corpus will be notified to active users, unless they have expressed their desire not to receive any communication.3.ACCESS TO CORPUS VIEWERAccess to the online demonstrator must be requested by sending an email to ********************************* with subject “Corpus Viewer Access”.Once your application has been processed, you will receive an email with your username and password, allowing access to the demonstrator through the following web address:https://cvdemo.plantl.gob.es/CorpusViewer/#/loginAfter identifying yourself In the system it is convenient that you change the access password initially provided, for which you must access the “Editar Perfil” option located in the drop-down menu in the upper right part of the window.Figure 1: User Profile Edition.To log out of Corpus Viewer, access this menu again, to the option "Cerrar Sesión".4.NAVIGATION BY CORPUS VIEWER TOOLSTo use the tool itself, you must access the "Menu" option in the upper tab. Once you have selected any of the available options, the following information appears on that top tab:● A list of available tabs, each of which provides a different view of the selected documentarycorpus.● A drop-down menu in which you can select the corpus with which you want to work.● A drop-down menu that allows you to select a model from those associated with theselected corpus.Figure 2: Navigation through the General Menu. Display selection based on topics.5.A BRIEF INTRODUCTION TO THE MODELING OF TOPICSThe construction of topic models is based on a machine learning technique called Latent Dirichlet Allocation (LDA). There are multiple sources on the Internet that provide information about this technique, some merely intuitive, and others addressing in greater mathematical detail the generation of topics and documents. This Quora entry contains several explanations with different levels of complexity. For reasons of academic recognition we also want to include the original paper by David Blei in which the original algorithm is proposed.For the purposes at hand, it is possibly enough to explain the following two basic concepts in a very simplistic way:●In LDA a topic can be characterized as a set of words that usually appear together in manydocuments. For example: the words gene, cellular, membrane usually co-occur frequently.LDA is able to locate these co-occurrences on the complete collection of documents, and define the topics from them. You could say that each set of words represents a possible thematic area that is what we call a topic.●In LDA a document can be characterized by a single topic, although often it is really a mixtureof topics. Again, LDA provides a vector for each document that indicates the extent to which the document belongs to each of the identified topics.The tools used in Corpus Viewer are based on Latent Dirichlet Allocation, but include some modifications made within the various contracts executed in the Language Technology Plan. The interested reader can refer to the plan's website for more information on some of these developments (currently information is only published in Spanish):https://www.plantl.gob.es/inteligencia-competitiva/resultados/desarrollos-SW/Paginas/desarrollos.apx6.VISUALIZING THE TOPICS THAT CHARACTERIZE A DOCUMENTARYCORPUSSelecting "Menú -> Tópicos estáticos: Tópicos", we have access to the following tabs:●Visión General: Allows you to study the main themes of the corpus.●Tópicos: It allows studying the main themes of the corpus.●Doc-Tópicos: It allows analyzing the themes of specific documents.●Correlación: It allows studying the relationships between themes.6.1TÓPICOS:GENERAL VISION TABThe first of the available visualizations takes us to a window in which we are shown general information about the selected documentary corpus, and about each of the topics identified for saidcorpus. It also includes an interactive graphic display of the model. As the cursor passes through the sets, a label is shown with the words that characterize each topic. If you click on one you will access the detail of that topic. Clicking again returns to the overview.In the list “Tópicos del modelo”, the following information is offered for each of the topics:●Relative profile size (estimated by the LDA model; it is related to the importance of the topicin the corpus, but a direct relationship cannot be inferred with the number of documents associated with the topic, since we have seen that the documents can belong to several topics to a different extent).● A title proposed by an expert annotator of the SEAD (bold text)●The list of words identified as most relevant to each topic (below the title of each topic).The list of topics is of the sliding type, so we must move with the cursor over it to visualize all the topics.Figure 3: General View of Corpus Viewer Topics.If we click on any of the topics (both in the graphic display and in the list of topics), the view changes to emphasize the selected topic and also shows:● A graphic display of the most relevant words of the topic (both on the interactive ballchart, as in the histogram version)● A list of the documents that best represent the selected profile. By clicking on theavailable link, we can access the text associated with the document.By clicking on the ball chart again we can move to another profile, or return to the general model display.Figure 4: Detailed visualization of topic including its description based on words, and the most characteristicdocuments of the selected topic.6.2TÓPICOS:TOPICS TABThis second tab allows a visualization of the model similar to that described in the previous case, although the selection of topics is done through a drop-down menu in which the title of the topics and their relative importance in the corpus are shown.Figure 5: Display of topics in the "tópicos" tab.Again, for the selected topic, the most representative documents are shown, and the list of the most relevant words, both in histogram and word bag format.This window also offers the possibility of emphasizing the most discriminative words of the topic (keywords) by selecting the option “Con penalización por TF/IDF”.The use of TF-IDF is common in the representation of documents using bags of words. In this case, we use an extension of this concept to represent the value of the words in each topic. Being:●TF: Term Frequency: Measures the probability of a word in a given topic.●IDF: Inverse Document Frequency: In this context, it is an inverse factor to the importanceof the term in the set of topics of the model.In this way, if we activate the option “Con penalización por TF/IDF”, the system will reweigh the weight assigned to each word within the topic, and weight will be subtracted from those words that are common to a larger number of topics (common words with little semantic relevance). In other words, we will emphasize the most discriminative words, in the sense that words that are mostly present just in the selected topic are emphasized.Finally, it is worth mentioning that the tab offers information on the standardized entropy of the topic, which gives an idea of the mainstreaming of the topic throughout the collection of documents.However, the calculation of standardized entropies currently implemented offers a low dynamic range, and the SEAD technical team is developing new indicators to better characterize horizontal and vertical topics.6.3TÓPICOS:DOC-TÓPICOS TABThe "Doc-Tópicos" tab allows you to search for documents by keywords. This search engine has the ability to "autocomplete", so that by entering some words, suggestions of documents containing them will be provided.Once the document to be analyzed has been selected, a graphic visualization of its thematic content is offered. Remember that in Latent Dirichlet Allocation each document is characterized by its level of belonging to the topics of the model.Figure 6: Detailed analysis of documents based on the most relevant topics that characterize it.As an example, the included figure shows that the document:“206298 - Deep learning and Bayesian inference for medical imaging”belongs in 56% to the topic characterized by the words “method, datum, simulation,…” (Algorithms and Modeling), in a 38% to the topic characterized by the words "patient, cancer, treatment, ..." (Cancer and Biomedical Applications), and to a lesser extent to other profiles.The graphic is interactive, which allows to expand to visualize the topics of minor importance for the document by clicking on them. To return to the more general previous view, just click on the center of the circular crown.6.4TÓPICOS:CORRELACIÓN TABLastly, the tool allows you to measure the level of correlation between topics. For this, it is estimated that the relationship between two topics is greater when these topics tend to occur together in the same documents.Navigating on the graph on the left we can select each of the topics of the model, and the links with other topics show their level of concurrence with other topics of the model. Since the figure does not have enough space to show the full title of the profiles, this information is included in textual format on the right side of the tab. When positioning in the figure on the name of a subject, the complete title will be shown in the textual information on the right side of the page. Selecting a topic on the figure shows only the relationships with it, hiding the rest of the flows.Figure 7: Visualization of the correlation between model topics. For each topic other topics that frequentlyco-occur are highlighted.Additionally, you can select the option “Con penalización por TF/IDF” that has already been explained in the previous section, as well as, choose a higher or lower threshold for correlation, so that only those relationships that exceed the threshold will be displayed.7.STUDY OF RELATIONS BETWEEN DOCUMENTS BASED ON THEIR TOPICSAs already mentioned, the topic modeling algorithm used allows each document to be represented based on its level of belonging to the different topics. This representation allows to measure “semantic distances” between documents. According to this distance, two documents are more similar to each other if their topic vectors are similar as well, that is, if they belong to the same topics to similar extents.Corpus Viewer incorporates tools that allow to exploit this semantic relationship between documents. Selecting the option "Menú -> Tópicos estáticos: Correlación" we access two tabs that exploit this information:●Documentos: Document search tool by semantic similarity.●Alarmas: Search tool for pairs of documents with very high semantic similarity.7.1CORRELACIÓN:DOCUMENTS TABThe first of the available tabs offers a document search engine that allows you to select a specific document. Once selected, a list of up to 20 documents that have a high semantic relationship with the selected document is offered.For each of the documents listed, by clicking on the different icons that appear on your right, we can:●Check their metadata, including the title and the full text of each document.●export the complete list of documents to excel.Figure 8: List of documents semantically similar to the document selected by the user.Finally, it is worth mentioning that the list allows iterative document browsing: if we click on the title of the documents in the list of similar documents, we will select that document and the tool will update the list of similar documents with those corresponding to the new document selected.To return to the complete list, just click on the "Listado inicial" button.7.2CORRELACIÓN:ALARMAS TABThis tool allows you to search for pairs of documents with very high semantic similarity. This similarity can be used to search for duplicates, or documents that have been submitted multiple times for evaluation.It should be stressed that the tool provided is not based on a search for textual similarity (as turnitin tools, etc.), but semantic similarity. Two documents can be very similar to each other as long as they combine the same topics in similar proportions. For this reason, this search tool is very robust against the presence of synonyms, rewrites of texts, etc., because the representation of the document in the topic model remains relatively stable when the text goes through revision or minor changes.Figure 9: Options for searching for “Alarms” based on semantic similarity between documents.The tool allows to determine the level of similarity required for the detection of alarms (lower and upper percentile), or to require that one of the two selected documents belong to a specific year (field “centered on year”)1. Once we have established the desired settings, we have to press the “cargar” button and the tool will load the pairs of similar documents in the drop-down menu “Alarmas encontradas”.As an example, if we select the CORDIS-IA corpus and use the default parameters, the first alarm found (with a similarity of 94%) provides the view of the following figure. We can verify that these are two projects requested in years 2009 and 2013, and that they are basically a continuation of each other.Figure 10: “Alarms” found by the application, and parallel view of two documents identified as(semantically) very similar.1 Sometimes it is interesting to decrease the upper percentile to a value less than 100% or to focus the analysis on a specific year. This can be important especially in those cases in which the documents have been subject to an OCR process (this is the case of the ACL corpus), since in certain cases there may be thematically identical documents because they are associated with the presence of noisy characters that come from a malfunction of character recognition.If we click on the “comparar paneles” option, we can see how the textual similarity of both projects is relatively low, although a high semantic similarity has been detected. Regarding textual similarity, the sentences marked in red (green) appear only in the text of the document in the left (right) panel, while the white text is the one that appears simultaneously in both documents. This example clearly illustrates the difference between this tool based on semantic similarity versus other tools based on textual similarity.Figure 11: Textual comparison panel between pairs of documents with large semantic similarity.8.DOCUMENTS SIMILAR TO AN ARBITRARY TEXTAll the functionalities described in the previous section allow to exploit semantic similarities, but their use is restricted to those documents that belong to the collections of documents already loaded in Corpus Viewer. Sometimes it can be interesting to look for similarities with other new texts provided by the user. This is possible by selecting the option "Menú -> Tópicos estáticos: Inferencia" in the main menu of Corpus Viewer.Figure 12: Tab for thematic inference about free text provided by the user, and search for documents with asimilar theme indexed in Corpus Viewer.The Inference tool is based on the following steps:1.The text provided is preprocessed using the same tools that were used for preprocessingthe documents of the active corpus.2.The text provided is “projected” on the topic model associated with the active corpus. Inthis way, we obtain a representation based on topics similar to that available for all the corpus documents loaded in Corpus Viewer.3.The semantic similarity between the text provided and each of the documents of theselected corpus is calculated, and the most similar documents are shown to the user.It is worth mentioning that this tool requires the execution of certain calculations on Corpus Viewer servers, so the response time may be a few seconds (larger when the number of documents in the selected corpus is also very large).It is also necessary to highlight that the semantic representation of the text will have better quality the longer the length of the text provided. Therefore we can expect higher quality results the longer the query text.9.SEARCH TOOLselecting "Menú -> Buscador" you can access the last of the options currently active in Corpus Viewer, which consists of a tool based on Solr and Banana. This tool offers the functionality of a BI type tool, although it integrates the available metadata with the document-based representation of topics.Currently, the search engine is in the development phase, so all the information that will be available in the final version is not incorporated, and changes in the panels that are finally incorporated in each corpus are expected.Although the development is not finished, it has been decided to leave this tab active in the open instance of Corpus Viewer, so that users can get a first impression of the type of functionality that will be provided once the development is completed.You can check the demo version with data from CORDIS for Artificial Intelligence developed on Javascript (takes a while to load).The operation of the search engine that will be incorporated into Corpus Viewer will be similar to that of the demonstrator provided, and will include all the search and grouping power provided by Solr indexing technology.。
自然语言处理技术的使用教程和语料库建立指南

自然语言处理技术的使用教程和语料库建立指南自然语言处理(Natural Language Processing,NLP)是一门研究计算机与人类自然语言交互的科学和技术。
它涉及了文本的理解、生成、机器翻译、文本分类、情感分析等多个方面。
在当今信息爆炸的时代,NLP技术的发展变得至关重要。
本文将为您介绍自然语言处理技术的使用教程,并指导您如何建立一个语料库。
第一部分:自然语言处理技术使用教程1. 文本分词文本分词是NLP的第一步,其目的是将连续的文本转化为单词或短语的序列。
常见的分词方法包括基于规则的分词、统计分词和基于机器学习的分词。
在中文分词中,可以使用开源的分词工具如jieba或THULAC。
2. 词性标注词性标注是为每个单词赋予一个特定的词性。
它可以帮助我们理解句子的结构和关系。
一些开源库如NLTK和Stanford NLP提供了现成的词性标注工具。
3. 命名实体识别命名实体识别是指识别文本中特定类型的实体,如人名、地名、机构名等。
这对于信息提取和文本分析领域非常重要。
一些开源库如SpaCy和Stanford NER提供了高效准确的命名实体识别工具。
4. 文本分类文本分类是将文本分为不同的类别。
它可以应用于垃圾邮件过滤、情感分析、主题分类等多个领域。
常用的文本分类算法有朴素贝叶斯、支持向量机和深度学习模型(如卷积神经网络和循环神经网络)。
5. 句法分析句法分析是为句子中的每个单词建立语法结构和关系。
这可以帮助我们理解句子的语法规则和句子成分之间的依存关系。
常见的句法分析方法包括基于规则的分析和基于统计的分析。
6. 机器翻译机器翻译是将一种自然语言翻译成另一种自然语言。
它涉及语义、语法和文化之间的复杂转化。
机器翻译可以使用统计机器翻译方法、神经机器翻译方法或者混合方法。
第二部分:语料库建立指南1. 收集语料语料库是自然语言处理任务中不可或缺的资源。
您可以从互联网上收集大规模的文本数据,并根据您的具体任务筛选出相关的语料。
国家语委现代汉语通用平衡语料库 标注语料库数据及使用说明

国家语委现代汉语通用平衡语料库标注语料库数据及使用说明肖航教育部语言文字应用研究所1. 国家语委现代汉语通用平衡语料库1.1 语料库全库国家语委现代汉语通用平衡语料库全库约为1亿字符,其中1997年以前的语料约7000万字符,均为手工录入印刷版语料;1997之后的语料约为3000万字符,手工录入和取自电子文本各半。
语料库的通用性和平衡性通过语料样本的广泛分布和比例控制实现。
语料库类别分布如下所示:1.2 标注语料库标注语料库为国家语委现代汉语通用平衡语料库全库的子集,约5000万字符。
标注是指分词和词类标注,已经经过3次人工校对,准确率大于>98%。
语料库全库按照预先设计的选材原则进行平衡抽样,以期达到更好的代表性。
标注语料库在样本分布方面近似于全库,不破坏语料选材的平衡原则。
标注语料库类别分布如下所示:标注语料库与全库的样本分布比较如下所示:(蓝色曲线为语料库全库;红色曲线为标注语料库)2. 国家语委现代汉语通用平衡语料库语料选材与样本分布2.1 选材原则依据材料内容,选材大体作如下分类:(下文字数为建库时数据)2.1.1 教材大中小学教材单作一类,约2000万字。
2.1.2 人文与社会科学的语言材料约占全库的60%,共3000万字,包括:·政法(含哲学、政治、宗教、法律等);·历史(含民族等)·社会(含社会学、心理、语言、教育、文艺理论、新闻学、民俗学等);·经济;·艺术(含音乐、美术、舞蹈、戏剧等);·文学(含口语);·军体;·生活(含衣食住行等方面的普及读物)。
2.1.3 自然科学(含农业、医学、工程与技术)的语言材料,应涉及其发展的各个领域。
拟从大、中、小学教材和科普读物中选取。
其中,科普读物约占6%,共300万字。
教材字数另计。
2.1.4 报刊。
以1949年以后正式出版的由国家、省、市及各个部委主办的报纸和综合性刊物为主,兼顾1949年以前的报纸和综合性刊物。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 、字处理(包括标点符号)[C]:错字标记,用于标示考生写的不成字的字。
用[C]代表错字,在[C]前填写正确的字。
例如:地球[C](“球”是错字)、这[C]。
[B]:别字标记,用于标示把甲字写成乙字的情况。
别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。
把别字移至[B]中B的后面,并在[B]前填写正确的字。
例如:提[B题]高、考虑[B虎]。
[L]:漏字标记,用于标示作文中应有而没有的字。
用[L]表示漏掉的字,并在[L]前填写所漏掉的字。
例如:后悔[L],表示“悔”在原文中是漏掉的字。
农[L]药,表示“农”在原文中是漏掉的字。
[D]:多字标记,用于标示作文中不应出现而出现的字。
把多余的字移至[D]中D的后面。
例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。
[F]:繁体字标记,用于标示繁体字。
把繁体字移至[F]中F的后面,并在[F]前填写简体字。
例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。
注意:1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。
例如:俭朴[F樸[B僕]]。
2)繁体字写错了,标为:后[F後[C]]。
[Y]:异体字标记,用于标示异体字。
把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。
例如:偏[Y徧]、沉[Y沈]。
[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。
把拼音字移至[P]中P的后面,并在[P]前填写简体字。
例如:缘[Pyúan]分、保护[Phù]。
[#]:无法识别的字的标记,用于标示无法识别的字。
每个不可识别的字用一个[#]表示。
例如:更[#][#]保存自己的生命,……[BC]:错误标点标记,用于标示使用错误的标点符号。
把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。
例如:勤奋、[BC,]刻苦的精神。
[BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。
把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。
例如:周围的环境很安静[BQ,]生活也非常平凡。
[BD]:多余标点标记,用于标示不应用标点符号而用了的情况。
把多余的标点移至[BD]中BD的后面。
例如:我家周围的[BD,]美丽风景。
2、词处理:(包括成语){CC}:错词标记,用于标示错误的词和成语。
包括4种情况:1)把词的构成成分写错顺序的。
把写错的词移至{CC}中CC的后面,并在{CC}前填写正确的词。
例如:首先{CC先首}、众所周知{CC众所知周}。
2)该用甲词而用乙词的。
这种情况类似别字,但属于用词层面上的错误。
标示方法同上。
例如:虽然现在还没有实现{CC实践},……它在{CC对}价格方面有点贵,所以没得到广大消费者的支持{CC持支}。
3)生造词。
指考生自造的、或某些外语中可能有而汉语中不存在的词。
例如:农作物{CC农产物/农物}、农产品{CC农作品}……但长期来看造成环境污染,破坏自然生态{CC目态},……绿色食品的好处在于吃这些食品后在身体里没有农药的残留量{CC潜留量}。
4)词语搭配错误。
包括词性、音节等方面的搭配错误。
例如:最好的办法是两个都保持{CC走去}平衡。
我也回{CC1回去}沈阳。
吃这种东西会{CC1可以}得{CC1得到}病{CC1疾病}。
{CLH}:离合词错误标记,用于标示各种和离合词相关的错误。
标在有错误的离合词的后边,表示前边的离合词用法有误。
例如:……我快要毕业{CLH}大学{CQ了}。
虽然这么[L]多年都没见面{CLH}过,…………我对哈尔滨{CJ-zy很}感兴趣。
有观光{CLH}哈尔滨的宿愿。
{W}:外文词标记,用于标示以外文词代替汉语词的情况。
把外文词移至{W}中W的后面,并在{W}前填写相应的汉语词。
在W和外文词之间填写汉语词的字数。
例如:非洲{W2Africa}、爵士乐{W3jazz}。
……教我工作的方法{W2ABC}。
{CQ}:缺词标记,用于标示作文中应有而没有的词。
在缺词之处加此标记,并在{CQ}中CQ的后面填写所缺的词。
例如:这就{CQ要}由有关部门和政策管理制度来控制。
……有的农民{CQ在}不使用化肥和农药的情[B精]况下[BD,]养农作物,……{CD}:多词标记,用于标示作文中不应有而有的词。
把多余的词移至{CD}中CD的后面。
例如:……然后肯德基的收入有所增加{CD了}。
中国政府应该采取良好的措施来管理农业{CD方面},……但我觉得{CD按照}上面所写的方法是现在很多人或国家用的方法。
句子错误类型代码:{CJba} :把字句错误{CJbei} :被字句错误{CJbi} :比字句错误{CJl} :连字句错误{CJy} :有字句错误{CJs} :是字句错误{CJsd} :“是……的”句错误{CJcx} :存现句错误{CJjy} :兼语句错误{CJld} :连动句错误{CJshb} :双宾语句错误{CJxw} :形容词谓语句错误{CJ-} :句子成分残缺错误标记,用于标示由于成分残缺造成的病句。
在短横后边标明所缺成分的名称,该名称用小写代码表示;在小写代码之后填写所缺的具体词语。
标在成分残缺之处。
例如:为了增加{CC满足}粮食,{CJ-zhuy人们}使用了化肥和农药,这样产量就会大大提高。
这样的活动{CJ-sy开展}以来,肯德基的垃[B拉]圾[C]总量大大降低。
……那两种{CC个}东西就容易伤害人类的{CJ-dy健康}系统。
从具体{CJ-zxy情况}来看,……{CJ+} :句子成分多余错误标记,用于标示由于成分多余(赘余)造成的病句。
后边用小写代码标明多余成分的名称,并把所多余的具体词语移至该名称的后面。
标在成分多余之处。
例如:这是我们{CJ+dy做人}的责任。
而且研究{CJ+buy下去}产量能提高的办法。
而且{CJ+zy正在}还死去好多人。
句子成分采用层次分析法的观点,共8种:{CJ-/+zhuy} :主语残缺或多余{CJ-/+wy} :谓语残缺或多余{CJ-/+sy} :述语残缺或多余{CJ-/+by} :宾语残缺或多余{CJ-/+buy} :补语残缺或多余{CJ-/+dy} :定语残缺或多余{CJ-/+zy} :状语残缺或多余{CJ-/+zxy} :中心语残缺或多余{CJX} :语序错误标记,用于标示由于语序错误造成的病句。
标在语序错误的词语的后边。
如果是相邻的两个成分语序错误,按照自然顺序,把{CJX}标在前一个成分的后边。
例如:大多数{CJX}这些人生活{CC2活}在很不好的地方,……可是这两个问题同时{CJX}要解决非常不容易,……现在每个人很重视健康,受欢迎{CJX}绿色食品。
{CJZR} :句式杂糅错误标记,用于标示把两种不同句式、两种不同说法混在一起的病句。
标在句子末尾,标点之前。
例如:这个问题不可能一两年解决的问题{CJZR}。
现在,全世界流行是绿色食品{CJZR}。
每次吃对身体有害于健康的东西{CJZR}。
因为,人们的必生存之一中最重要的是饮食{CJZR},……{CJcd} :重叠错误标记,用于标示句中词语的重叠错误,包括重叠方式上的错误,也包括不该用而用重叠,或该用而不用重叠的情况。
标在出现重叠错误的词语之后。
例如:而对生产者来说,尽量不用化肥和农药,在出货之前,进[C]行洗洗{CJcd}。
还有我们{CQ应}对绿色食品研究研究{CJcd}。
{CJgd} :固定格式错误标记,用于标示固定格式搭配上的错误。
例如:“一……就……”缺少“一”或者“就”。
现代社会应当认“保护自己,尊重其他人”为口号{CJgd}!{WWJ} :未完句标记,用于标示没写完的半截子的句子。
标在未完成句的末尾处。
例如:只是全球{WWJ}最后国家政府不考虑经济问题、积{WWJ}不知道什么时候会普及起来,但是我认为这还是不是个{WWJ}{CJ?} :句处理存疑标志,用于标示错误类型不清楚的、或错误类型标注很不方便的、或句义不明且有语法错误的的病句。
标在存疑病句之后、该句标点之前。
例如:地球上,有的地方还在“饥饿”来艰苦{CJ?}。
还要想每个人的健康是帮助饥饿人的办法越来多健康的人会越来多帮饥饿的人{CJ?}。
把化肥可以取代{CC代取}用草、剩饭做的自然肥料{CJ?},把农药也可以取代{CC代取}喜欢吃害虫的动物{CJ?}。
4、篇章处理:(包括复句){CP} :篇章错误标记,用于标示篇章错误。
大括号的前半和后半分别表示有错误的篇章的起点和终点,在起点处标CP,在终点处标P。
即:{CP……,……。
……,……。
P}所谓篇章错误,主要指句子和句子之间在衔接方面的错误。
最典型的情况是每个单句都正确,但作为一个整体来看则句子相互之间缺乏联系,不能构成一个紧凑、自然、流畅的成段表达。
而产生这种情况的原因,可能是语义方面的,也可能是连接方式方面的。
例如:{CP我们经过了漫长的历史,一些没有用的人死于历史中,挨饿其实是可以克服的。
P}(前后句意义上无关){CP吸烟对孩子们{CJ-sy有}不好的影响,这一观念他会不会知道呢?所以我早就不理他了。
P}(用了表示因果关系的连词,但句子之间并不存在因果关系){CP目前,随着人们生活水平{CQ的}提高,{CJ-zhuy人们}{CD就}对饮食品很重视。
就{CJX}{CQ用}未经污染的农产品加工的食品叫做“绿色食品”。
P}(前后句之间缺少过渡句){CP我以前看报纸的时候,有一篇关于农药的文章。
他说,一般的食品,比如说,米,蔬菜、水果等{CD的}东西,好好儿洗一下就行了,不用担[B但]心。
P}(“他”指称不明,使两句之间失去联系)。