中医药古文献语料库设计与开发研究
面向命名实体抽取的大规模中医临床病历语料库构建方法研究
1、中医临床病历文本特点
1、中医临床病历文本特点
中医临床病历文本主要包括患者的基本信息、主诉、现病史、既往史、家族 史、舌象和脉象等方面。其中,患者的基本信息包括姓名、性别、年龄等;主诉 是指患者的主要症状和体征;现病史是指患者发病后的主要症状和体征;既往史 是指患者过去患病情况;家族史是指患者家族中是否有遗传疾病;舌象是指患者 的舌质和舌苔情况;脉象是指患者的脉搏情况。
2、命名实体抽取技术研究
目前,命名实体识别技术主要分为基于规则、基于模板和基于机器学习等方 法。其中,基于规则的方法主要依靠人工编写规则进行实体识别,该方法需要大 量的人力资源和经验,而且规则的适用范围比较有限;基于模板的方法则是将模 板中的实体用待识别的实体替换掉,该方法自动化程度较高,但是需要预先准备 模板;
引言
引言
电子病历是指医疗机构或医生在诊断和治疗过程中产生的数字化医疗记录。 包含患者基本信息、症状描述、诊断结果、治疗方案等关键信息。命名实体识别 (NER)是指从文本中自动识别出具有特定意义的实体,如人名、地名、组织名 等。实体关系抽取则是从文本中提取出两个或多个实体之间的关系。在电子病历 分析中,命名实体识别和实体关系抽取技术有助于快速、准确地获取患者信息, 提高医疗质量和效率。
2、命名实体抽取技术研究
基于机器学习的方法则是利用机器学习算法对大量标注数据进行训练,从而 得到实体识别的结果,该方法具有较高的准确率和召回率。
2、命名实体抽取技术研究
针对中医临床病历文本的特点,可以结合基于规则和基于机器学习的方法进 行命名实体识别。具体来说,可以利用已有的中医临床病历文本数据集进行训练, 得到基于机器学习的命名实体识别模型;同时,针对不同的实体类型,可以编写 相应的规则进行实体识别。例如,针对患者基本信息中的姓名、性别、年龄等实 体,可以编写相应的规则进行识别;针对症状和体征中的舌象和脉象等实体,可 以利用基于机器学习的方法进行识别。
中医文献语料库自动分词中的新词发现研究
1 研究对象 中医古文献自动处理是自然语言处理领域的
一个分支。理论上讲,中文自然语言处理中的一些 关键技术和基本方法都能够适用于中医古文献自 动处理的各个环节,如分词、词性标注、句法分析、 信息抽取等。然而,由于古汉语与现代汉语在句 法、词汇方面的差别,再加上中医古文献资料的数 量有限性以及在题材方面的独特性 ,使得自然语 言处理中所使用的技术,如基于词表的分词法,或 者基于统计的分词法等都难以承担中医古文献资 料的自动分词任务。要实现从中医古文献资料中 自动提取信息的任务,首先必须设计开发一款中 医古汉语自动分词工具[ 9 ]。
本研究中的中医古汉语分词工具采用由字构 词的词表与统计相结合的分词方法[10 ],在完成了 基于词表的分词任务之后,即:完成了既定自动分 词任务之后,句子中的剩余字符会表现为散串的
中国科技
71
核心期刊
·医 史 文 献
W estern Journal of Traditional Chinese Medicine,2018 V ol.31 No.9
2018 年第 31 卷第 9 期
·医 史 文 献
中医文献语料库自动分词中的新词发现研究 *
闻永毅,王治梅,杨 婷 陕西中医药大学外语学院,陕西 西安 712046
[摘 要] 目的:运用中医古汉语自动分词工具发现中医古文献中的新词。方法:把人名前后语境特征纳入 中医古文献的人名自动处理过程,以语言学、中医学知识主导程序设计。结果:人名后语境要素能够显著提高中 医古文献中人名的分词准确率。结论:如果能够把前后语境表、姓氏表、停字表中的要素进一步优化,使其中的项 目能够保持较为稳定的状态,那么,这种方法就有可能应用到整个中医古文献的分词中。
[关键词] 中医;语料库;新词发现;人名;语境 [中图分类号] R221 [文献标识码] A [文章编号] 1004-6852(2018)09-0071-04
探讨语料库方法研究中医药论文摘要英译
交流也越来越多 , 论文摘要作为学术论文 的一个浓缩 , 其作
用 不容 忽视 。 提高 中医药论文摘要英译的质量 , 其实也在提 高着 中医药 国际学术交流的水平。本文提出用语料库 的方 法研究 中医药论文摘要的英译,希 望能在此 领域有一点新
的 突破 。 1 中医 药论 文摘 要 英 译 研 究 的意 义
息、 引导读者 的作用。摘要 的质量如何 , 严重影响着论文的
发表 、 信息 的接受、 知识 的传播 。本研究成果将有利于摘要 翻译写作质量 的提 高。
1 2 2 对大 学英语教学 的意 义 ..
随着 中学英语教 学水平
的提高 、 英语教学手 段的不断更新 、 英语教学模式 的改革 ,
文献标识码: A 文章编号 : 0 4 6 5 (08 0- 0 5 0 10 - 8 2 2 0) 4 0 4- 2
需 要 注 意 的 问题 。 .
中医药在 国际上 的地位 越来越受 到重视 , 医药 学术 中
体之 一, 也是信息交流最重要 的手段之一 。 它发挥着凝聚信
12 3 中医对外交流 的意义 ..
几千 年来 中医为中华 民族
的繁衍发挥了重要 的作用 。 在现代科学迅速发展的今天, 为 了更好地为人类健康服 务, 中医既需要发 展 自己、 也需要宣 传 自己。 通过英语进行中医国际交流 , 将为中医的发展和宣 传发挥重要作用。 本研究成果, 将促进 中医英语摘要 的翻译 写作 , 促进中医英语人才 的成长 , 进而将促进 中医的国际交
应 用 , 效 明确 , 疗 上 呼 吸道 感 染 急性 肝 炎 、 风 偏 瘫 。 疗 治 中 柴
详细注明不 良反应, 以避免和减少药物不 良反应发生, 使中 药注射剂在临床得 到更广泛 的应用 。
中医古籍语言系统构建的关键问题与对策
古籍学术体系有别于现代 中医药语言体系, 两者决定了中医古籍 语言系统是 T MS的一个不可或缺 的组成部分。 CL 笔者在此基础上
进行 尝 试 , 并试 图对 实践 过 程 中遇 见之 问题勉 力 探 讨 。 1 背景 介 绍
籍语言系统所需要的分类体系 。因其或注重学术流派, 或关注 图书本身, 而对文献 的内容关注较少 。语 言系统整 体框架 内古 籍部分的分类显然不能局限于文献 图书本身, 而必须立足于文 献所包含的知识, 方能更好地分析把握其含义及相关关系。
在 现 代 中 医 药 语 言 系 统 分 类 体 系 的 基 础 上 , 据 古 籍 的特 根 点 进 行 分类 的 修 订 和 完 善 , 预先 建 立 一个 能够 满 足 中 医 古籍 语
T M S是 以 U L ( CL M S ~体化医学语言系统) 为参考, 以本体论
为指导, 以中医药语言特点及学科体系为依据, V c b l r 以 oauay Bidr u le 软件为平 台研制开发 的, U L 原有语义类型和语义 在 MS
・
9 ・ 8
C nes J ur a1 hi e o n of nf mat on n C I or o T M i
Ap 2 1 V .1 N 4 r 0 0 o1 7 o.
.
中医 古籍 语 言系 统 构 建 的关 键 问题 与对 策
朱 玲 , 爱宁, 蒙 尹 崔
( 国 中医 科 学 院 中医 药 信 息研 究 所 , 京 1 00 ) 中 北 0 7 0
2 存 在 问题 及 初 步 解 决 方 案
散而造成缺 失、 错误等一系列低效检索结果的发生。中医药一体 化语 言系统 (C L ) T M S现代部分 的构建 已初具规模, 但中医古籍部 分的语言系统建设却一直缺如。 中医古籍所含学术 内容在整个 中
构建四大名著中医药文化汉英平行语料库的研究
2019年第32卷第3期在中国文化“走出去”战略实施大背景下,促进中医药文化在全球范围内推广,能更好地弘扬中华文化,提升中国文化“软实力”。
中医的重要性和科学价值已渐渐为世界所了解和认可,但由于文化背景、语言等原因,以及中医药自身的复杂性和特殊性,其对外传播的过程面临许多困难。
国医大师张其成[1]曾说:“近些年,中医药在全球传播的范围和规模都逐渐扩大……但尽管如此,文化嫁接的不顺利仍然制约着中医药在国外的地位。
”因此,探讨中医药文化翻译,对于促进中医药文化的海外传播有着极为重要的意义。
中国古典文学作品中蕴含丰富的中医药文化,是海外读者了解中国文化、学习中医药知识的窗口。
比如四大名著不仅是中国古典文学艺术的巅峰之作,其中也展现了丰富的中医药文化实践活动。
现阐述四大名著中医药文化汉英平行语料库建立的背景、方法与意义,并就语料库的使用给出翻译示例,旨在为探究古典文学中医药文化翻译研究打开新思路。
1四大名著与中医药文化中国古典文学与中国传统医学都是中国文化的重要组成部分。
涉医文学是中国古代文学与传统医学交叉融合且相互促进的结果。
中医学为古典文学创作提供了丰富素材,拓宽了古典文学题材的领域。
“中国古典文学借助中医药文化,推动情节的发展,刻画人物的灵魂,揭示作品的主题;在客观描述中医医药知识及相关的人事外,还力图借助文学的形象反映中医理念、思维方式等,将医药作为一种独特的文化现象展示在读者面前”[2]。
读者在欣赏文学作品的同时,还能学到中医学知识,感受中华文化的博大精深。
中国古典文学在明清时期达到顶峰,四大名著应运而生,《红楼梦》《三国演义》《水浒传》《西游记》以其展现丰富的社会文化画卷而闻名于世。
四部作品的作者曹雪芹、施耐庵、罗贯中、吴承恩不仅文学修养极高,其医学功底也相当深厚,作品中均有大量中医药知识的描写。
如,《红楼梦》不仅是文学艺术宝库,也是传统中医药文化宝库。
书中从疾病、中药、方剂、脉案、药膳、养生等多个层面对清代中医药文化进行了细致深入的描写,这些描写又在故事情节的发展、人物性格的塑造以及人物命运的体现方面发挥了重要作用,体现了作者的哲学思想以及将中医与文学结合的高超艺术。
语料库与《黄帝内经》研究一项实例报道
语料库与《黄帝内经》研究的一项实例报道【摘要】运用语料库语言学的研究方法与技术研究《黄帝内经》中“盛”字的用法、意义和搭配模式,从中医学的角度归纳总结其搭配词的语义类型以及两者线性组合的语义模式,以实例研究的方式论证语料库研究方法在中医古典文献研究中的应用问题。
【关键词】语料库,搜索词检索,黄帝内经,语义类型a corpus-based research to huangdi’s internal medicine wen yongyi, xing yuruishaanxi university of chinese medicine, xianyang, shaanxi 【abstract】“sheng (prosperous)”, a chinese character and also a word, is retrieved from a specially established corpus of huangdi’s internal medicine and the meaning as well as the usage is thereby discussed with the help of tools developed by corpus linguistics. the semantic categorization of sheng and the summarization gained from the perspectives of traditional chinese medicine may be an evidence suggesting that corpus-based approach can be of significance to the documentation research of traditional chinese medicine. 【key words】 corpus, search word, huangdi’s internal medicine, semantic category运用语料库语言学的研究方法探讨中医古典文献中的词义方面,闻永毅对《黄帝内经》中的“心”字的研究,付伟对其中的“络”字的研究,显示理论上具有可行性,因为两者具有相同的研究对象——语义问题。
基于文本内容理解的中医药数据基础研究——中医药文献语料库的建设
语料库 ” 、清华大学 中文系的 “ 清华 _ r H语料库 ” 、中国台湾 中 央研 究院的 “ 平衡语料库 ” 。 1 4 专用性语料库 (p c a e o p s . S e i 1z dC ru ) i 专用性语料库 专门服务于某个特定 目的。 例如美国卡耐基一 梅隆大学为研究儿童心理 语言学而建立的 C ID S语料库、 HLE 为 珍藏人文科学重要著 作和资料而建立 的美 国北 美人文科学语
机 构 、 地理 。 4 中 医药 文 献 语 料库 的规 模 语 料 库 的规 模 问题 主 要 从 语 料 库 的 总 规 模 和 每 个 样 本 的
规模 两个层 面上考虑 。 自从 2 世纪 6 年代美国布朗大学开发的布朗当代美国英语 0 O
标准 语料 库 (rw nvr i y t na d o p s f rs n— a B onU ie s t a dr r u e et dy S C oP
关键词 :中医药文献;语料库;中文信 息库
中图分类号:R —5 20 文献标识码 :C 文章编号 :10 —3 420 )90 0 —2 0 55 0 (0 70 — 1 1 0
中 医 药 文 献 语料 库 从 类 型 上 属 于 专 用 性 语 料 库 , 语 料 的 在
“ 中医药文献语料库系统 ”是汉语语料库建设 中的一个 分支, 是在北京大学 计算机语言所开发的 “ 汉语 文本切分与词 性标注工具 ”的基础上, 利用 中医药专业切分词 典再次加工而
中医药文献 语料库是该系统中的基础数据, 本语 料库根据 内容 属性分为 2 O个子 目, 每个子 目下又各有 细分类, 计 四级分 共 类。 目前 已经部分完成 自动分词和词性 自动标注 的处理工作。
1 中医药 文献 语 料 库 的 定位
论建立中医语料检索库的可行性
出现 的时 间与翻译 的英语资料 出现的时 间。一般英语 语料库都 以英语 资料 的 出现年 代为标 准 。在 中医英 语发展 的几百年 间 , 英语 语言本身 也发生 了 重大变 化。探 索当代 中医英语发展 规律及翻 译规律 的语料库显然 应该使用 当代英 语 资料 。中医原文 资料 的历史 已经有几 千年 , 但是 大规模英 文翻译 却始 于最 近时期 。为 了确 保资料 收集 中的完整 与均衡 , 同时又照顾 英语资
互 译研究 、 医英 语研究 、 中 中医英 语教 学( 括教材 编写 、 包 词典 编篡等 ) 至 甚
料 的时间 问题 , 语料 收集应 先以原始 中医资 料出 现的时 间为序 , 将其排 列 , 归类 , 以某一 时间 为起点 , 后 以中医原始 资料为 内容 , 照英语译 文出现 的 按
语 料检 索库的 可行性 。
【 关键词 】 医; 料检 索库 中 语 d i1. 6 ̄i n10 —992 1. . 9 o:03 9 .s. 6 15. 0 6 6 9 s 0 0 02
文章编号:06 15 (00 - 6 17 -2 10 -99 2 1)0— 56 0
l 中 医语料 的时间跨 度 : 2 - 中医语料 存在着 两种 时间 问题 : 中医资料 原
建 立 中医语 料检 索库 是一个 基 础性研 究项 目 , 经检 索 , 目前 虽 然有 学 者进行 了相关 研究I ] , - 但都 是从 某一 角度 或部分 进思考 , 5 从整个 中医学 学 科角度 进行探 讨的在 国内外迄 今尚未见 报道 。 其重 大意义与一 般语料库 的 作用( 词频统 计 , 进行各种 语言学研 究 , 与计算机 语言学携 手共进等 ) 6密 不 可分 。遗憾 的是 , 目前无论 国 内还 是 国外 还不存在 一个 中医语料 检索库 ( 中医汉语 语料检 索库和 中医英语 语料检索 库两个子库 ) 作 为人类宝 贵 含 。 文化遗 产一部 分 的中医学 要走 向世界 . 先攻克语 言难关 。建设一 个 中医 必 语 料 检索库 , 其是 中 医文献 研究 、 中医用 语研究 、 中医教 学研究 因和病 理 , 保对其诊 断的效果 。 确
中医文献语料库建设与顶层设计刍议
W EN Yongyi.WANG Zhimei
School of Foreign Languages,Shoanxi University of Chinese Medicine,Xianyang 712046,China
hbatract The PaDer is focusing on the construction of Chinese medical literature corpus by dealing with following four issues.namely the coordinating problems between t he text ual characteristics of Chinese medical literature and autonomic processing system.t he method of medical terms’ segmentation and annotation.t he di伍 culties in segm enting and annotating the non—specializing terms and their solutions.To fundamentally achieve the aim of data analysis and inform ation extraction.it iS indispensable to t a ckle such links in constructing t h e Chinese medica1 literature corpUS as edition selection of original f iles.word seg m entation and annotation of cor pus f iles.infor m ation retrieval and checks as well as automatic processing t ools development.As a unique systematic program .the construction of Chinese medical literature cor pus needs basic parameters in each subsystem designed from t o p leve1 to achieve an overall and reliable effect of data.type consistency.dat a—hierarchical coherence. subsystem s interconnection and infor m ation-ext racted entirety.
中医语义词语料库
中医语义词语料库
中医语义词语料库是一个集合了大量中医相关术语、概念、理论和知识的数据库。
这个语料库致力于整理和存储中医领域的专业词汇,以便于研究、教学、以及中医爱好者查阅和使用。
中医语义词语料库的内容丰富多样,涵盖了中医的各个方面。
它包括了中医的基本理论,如阴阳五行、脏腑经络、气血津液等;中医的诊断方法,如望闻问切四诊法;中医的治疗方法,如中药、针灸、推拿等;以及中医对某些疾病的认识和治疗方法。
此外,语料库还包含了中医的经典著作、历代名医的医案和经验,以及现代医学对中医的研究成果等内容。
中医语义词语料库的建立对于推动中医学科的发展具有重要意义。
首先,它为中医研究提供了基础性的数据支持,有助于研究者深入挖掘中医的理论和实践。
其次,语料库为中医教学提供了丰富的教学资源,帮助学生更好地理解和掌握中医知识。
最后,语料库也为中医爱好者提供了一个便捷的查阅平台,让他们能够更加方便地了解和学习中医。
在构建中医语义词语料库的过程中,需要注意一些问题。
首先,要保证语料库的准确性和权威性,避免出现错误或误导性的信息。
其次,要注重语料的更新和维护,及时添加新的中医术语和研究成果。
最后,要关注语料库的可扩展性和开放性,以便于其他研究者或机构能够方便地接入和使用。
总之,中医语义词语料库是一个重要的中医知识资源平台,它为中医学科的发展提供了有力的支持。
随着科技的不断进步和中医研究的深入发展,相信这个语料库将会越来越完善、越来越丰富。
“出土古文献语料库建设研究”中期检查报告
“出土古文献语料库建设研究”中期检查报告全国哲学社会科学规划办公室>>2010重大项目中期检查报告“出土古文献语料库建设研究”中期检查报告2014年02月27日08:31 来源:全国哲学社会科学规划办公室①研究计划总体执行情况及各子课题进展情况本课题申报书所规定的研究任务和目标可分述为如下几条:第一,最终成果语料库的材料范围限定为具有完整语境,且考释研究成绩相对充分的先秦古文字文献材料,具体是迄今已公布的殷商甲骨卜辞、殷周青铜器铭文、战国简帛文书,以及少量石刻类文献等。
第二,语料库建设的研究程度的预期目标为:将完成一种以语言属性为核心的复合型内容标注,使语料库除了能够提供先秦文献语言信息外,还在汉字的早期发展、先秦社会文化等方面提供无可替代的信息。
其最终成果,将兼具出土古文献的语料库、电子类书;出土古文字字料库、电子诂林等多种功能。
第三,基于上述材料范围和研究层次的规定,课题的具体工作分述为如下:一、出土古文献资料本体的收集与审读;二、考释材料集成提要;三、数据库框架设计与实现;四、材料的数字化;五、属性标注。
迄今为止,上述任务规定的完成情况可表述概括为如下几点:一,截止2012年底公布的出土古文献资料本体的收集及数据库输入完成85%以上。
二,截止2012年底的相关考释论著的集成提要完成90%以上。
三,跟踪相关考释研究的进展所进行的出土古文献语料释文的修改完成过半。
四,文字、语言、考释、文化分类的标注大体达到50%以上。
基于上述进展,上述已完成任务分解到各个子课题的情况如下:本课题的子课题共计四类十个。
第一类是作为课题研究主干的出土古文献审读类子课题共计四个:1,甲骨文文献审读子课题(白于蓝教授负责)。
在全面收集包括《甲骨文合集》、《甲骨文合集补编》、《小屯南地甲骨》、《殷墟花园庄东地甲骨》所公布材料原图片资料,并将上述甲骨文著录的既有释文录入数据库,实现全文检索的既有工作基础上,主要开展了两方面工作,一是全面收集针对甲骨文的最新释读成果,将涉及文字考释和缀合研究的论著尽可能全地收集在案,以备研究中审阅查考。
中医古籍文献研究数据标引软件系统开发方案.doc
中医古籍文献研究数据标引软件系统开发方案1中医古籍文献研究数据标引软件系统开发方案(2008年) 目录1目前现状与待解决问题(3)1.1叙词表加工系统目前现状(3)1.2对叙词表加工系统的特殊需求(3)1.3元数据标引系统目前现状(3)1.4现有元数据标引系统存在的问题(3)2整体需求分析(3)3整体设计(4)3.1数据加工流程(4)3.2元数据标引系统(5)3.2.1书目管理(5)3.2.2用户管理(5)3.2.3元数据模板配置(6)3.2.4元数据模板与叙词表的映射规则配置(6)3.2.5数据标引(6)3.2.6工作流管理(7)3.2.7日志系统(7)3.2.8统计报表(8)4技术实现(8)4.1客户端配置(8)4.2Web服务器配置(9)14.3数据库服务器配置(9)21目前现状与待解决问题1.1叙词表加工系统目前现状目前中医古籍文献研究拥有一定数量的叙词表数据,由于缺乏比较理想的叙词表加工系统,现有数据主要为文本文件格式。
这些文本文件格式较为规范,便于计算机程序导入。
1.2对叙词表加工系统的特殊需求由于中医叙词表的特点,使两条概念能够相关的语义环境非常重要,即两条概念能够相关,一定是基于一定的语义环境。
例如,在某个方剂里,在主治某种病症时,两种中药产生一定关系。
然而,同样是这两种中药,在另一个方剂里, 或在主治另一个病症时,就可能不产生关系,或产生完全不同的关系。
因此,对于中医叙词表,如果抛开一定的语义环境而谈两个概念之间关系,是没有实际意义的。
那么,对于叙词表加工系统而言,要解决的问题就是在用户建立概念间的关系时,如何能让叙词表加工人员准确、完整地描述产生这种关系的语义环境。
并且,系统在展现概念间的关系时如何清晰的展示这种关系所存在的语义环境。
1.3元数据标引系统目前现状目前文献研究已拥有一套元数据标引系统,用于标引中医古籍文献,此系统为传统单用户应用程序,以桌面数据库MS Access为数据的存贮介质。
中医药学语言与文献教学设计
合作评价
对小组的合作过程和成果进 行评价,肯定优点和指出不 足,促进小组的合作学习和 进步。
案例三:线上线下混合式教学模式应用
线上资源建设
利用网络技术,建设中医药学语言与文献的线上课程和资源库,为学 生提供丰富的学习材料。
线下课堂教学
通过传统的课堂教学方式,系统讲授中医药学语言与文献的基础知识 和理论。
线上线下互动
鼓励学生在线上学习和线下课堂之间进行互动和交流,如线上提问、 线下讨论等,提高学生的学习积极性和参与度。
混合式评价
结合线上学习数据和线下课堂表现,对学生进行全面、客观的评价, 促进学生的全面发展。
06
中医药学语言与文献教学评价与反思
教学评价方法与标准制定
设立多元化的评价方式
包括课堂表现、作业完成度、小组讨论、期末考试等多个方面,确保全面 评价学生的学习效果。
教师系统讲解中医药学语言与文献知 识,优点在于知识传授的系统性和完 整性,缺点在于学生被动接受,缺乏 实践和应用。
讨论法
学生在教师引导下对中医药学语言与 文献问题进行讨论,优点在于培养学 生的思维能力和表达能力,缺点在于 讨论深度和广度受限于学生水平。
创新性教学方法探索与实践
案例教学法
通过分析中医药学语言与文献典型案例,引导学生理解并掌握相关知识,优点在于理论与实践相结合 ,提高学生分析和解决问题的能力。
中医药学文献分析与评价
介绍文献分析的基本方法,如内容分析、词频分析等,以及评价文 献质量的指标和方法。
中医药学文献价值挖掘与应用
探讨如何从文献中挖掘有价值的信息和知识,以及如何利用这些信 息和知识促进中医药学术研究和临床实践的发展。
04
中医药学语言与文献教学方法探讨
中医药古文献语料库设计与开发研究
中医药古文献语料库设计与开发研究①刘耀1段慧明2 王惠临1 周扬3 王振国3 李宏展21(中国科学技术信息研究所 北京 100038)2(北京大学 计算语言学研究所 北京 100871)3(山东中医药大学 文献研究所 济南 250014)摘要:专业领域语料库是对专业领域文献进行自然语言处理的重要的不可或缺的基础,是对专业文本内容与意图进行深层把握的必由之路。
本文通过对研究背景的分析,进一步明析了专业文献进行自然语言处理的必要性,并在对专业文献语料库的研究特点进行分析的基础上,深入探讨了专业语料库的设计思想及原理,同时,对语料库词类的标注信息进行了深入研究。
成功地开发了针对专业领域语料库的辅助加工系统,为专业领域语料库建设提供了理论指导和技术支撑。
关键词:自然语言处理 语料库 中医药古文献 知识工程Research on Corpus Creation and Development of Chinese Traditional Medicine1Liu Yao 2Duan Huiming 1Wang Hui-lin 3Zou Yang 3Wang Zhen-guo 2Li hong-zhan 1(Institute of Scientific and Technical Information of China,Beijing,100038,China)2(Institute of Computational Linguistics, Peking University, Beijing, 100871, China)3(Institute of Chinese Medical History and Literature,Shandong University of Traditional ChineseMedicine,Jinan, 250001,China)Abstract: Domain corpus is the important base of natural language processing for domain documents. It is necessary for gripping the deep meaning and content of domain documents. Based on the research background analysis, this paper clarifies the importance of natural language processing for domain documents. After analyzing the specialty of domain corpus, this paper discusses the idea and principle of domain corpus creation in a deep degree. Meanwhile, it also further researches on part of speech tagging information of corpus. Finally we develop an assistant processing system of domain corpus for the purpose of providing theory instruction and technique support for domain corpus creation.Keyword: natural language processing; corpus; Chinese traditional medicine document; knowledge engineering自然语言处理(Natural Language Processing,NLP)是一种对自然语言信息进行处理的技术,从语言学角度来说,自然语言处理也叫计算语言学(Computational Linguistics)。
为中古汉语研究夯实基础中古汉语研究型语料库建设琐议
第12卷第1期燕山大学学报(哲学社会科学版)V ol.12No.1 2011年3月Journal of Yanshan University(Philosophy and Social Science Edition)Mar.2011一语料库自上个世纪70年代末以来在我国逐渐兴起、发展,取得了长足的进步。
从国内外形势来看,语料库语言学已经成为语言研究的主流。
古代汉语语料库与现代汉语语料库相比较而言,无论规模还是影响,都有明显的差距。
造成这种差距的原因是多方面的,随着计算机的发展和普及以及语言研究的需求,古代汉语语料库渐渐发展起来。
目前古代汉语语料库的类型主要有两种:一是文本型,一是数据库型。
文本型就是把纸质文献上的文字输入计算机,用文本软件自有或专用软件提供的搜索功能进行检索,它又可以分为平面型和层级型两种。
早期的文本型语料库从内容层级上讲只有一层,所以又被称为平面型语料库,它不分层,对原文与注疏合一的文本内容只能在同一个平面上共存,检索时无法指定内容范围是原文还是注或疏。
它的优点是制作相对简单,所以很多单位和个人都有不少的此类成果。
超文本技术使文本的构成由单层级发展为多层级,为区分原文和注疏提供了可能,尤其是XML语言的出现为制作多层级文本提供了方便、有力的工具。
华中科技大学尉迟治平老师制作的“数字化传统小学工具书”系列堪称目前古籍数字化的最佳代表,他们把多层级的古代语言学工具书制作成XML文档,能进行任一个层级的独立检索和多个层级的组合检索,这样可以把不同的人对同一原文的注疏随意检索,在《广韵》这样有很多又音、又切的多层级韵书中也可以随意指定层级进行检索。
XML的制作比前边纯粹的平面型文本要难一些,但是实现了多层级化。
文字数量不大的单本古籍XML检索速度还不错,如果文字数量大,XML就显得非常无力,因为它是文本,主要供阅读,毕竟与专门进行海量数据快速检索的数据库不同。
目前各种规模的流行数据库都支持与XML进行转换,使得XML文本的应用前景十分广阔。
中医药古文献语料库设计与开发研究
中医药古文献语料库设计与开发研究
刘耀;段慧明;王惠临;周扬;王振国;李宏展
【期刊名称】《中文信息学报》
【年(卷),期】2008(22)4
【摘要】专业领域语料库是对专业领域文献进行自然语言处理的重要的不可或缺的基础,是对专业文本内容与意图进行深层把握的必由之路.通过对研究背景的分析,进一步明析了专业文献进行自然语言处理的必要性,并在对专业文献语料库的研究特点进行分析的基础上,深入探讨了专业语料库的设计思想及原理,同时,对语料库词类的标注信息进行了深入研究.成功地开发了针对专业领域语料库的辅助加工系统,为专业领域语料库建设提供了理论指导和技术支撑.
【总页数】7页(P24-30)
【作者】刘耀;段慧明;王惠临;周扬;王振国;李宏展
【作者单位】中国科学技术信息研究所,北京,100038;北京大学,计算语言学研究所,北京,100871;中国科学技术信息研究所,北京,100038;山东中医药大学,文献研究所,山东,济南,250014;山东中医药大学,文献研究所,山东,济南,250014;北京大学,计算语言学研究所,北京,100871
【正文语种】中文
【中图分类】TP391
【相关文献】
1.中医药古文献语料库词语标识标准探讨 [J], 刘耀;周扬
2.日本历史上保存与发现的中医药古文献 [J], 马继兴
3.民族古文献语料库建设与应用——以水族水书文献为例 [J], 刘凌;邢学艳
4.中医药古文献数字信息化的思路与方法——以中医药古文献语料库的构建为例[J], 白玲玲;周扬;岳小强
5.中医药治疗半身不遂的古文献考证 [J], 王文凯;张贺;王慧;曹霞;裴丽;刘景亮因版权原因,仅展示原文概要,查看原文内容请购买。
中古汉语语料库的设计与实现
中古汉语语料库的设计与实现摘要:文章探索了中古汉语研究型语料库的设计原则和具体构建方法。
首先,明确了中古汉语语料库设计的总原则,并针对语料库构建过程中的每一个环节设立了分原则;其次,把语料库构建过程分为语料选取、语料加工、语料库管理及检索系统研发三大块,勾勒出了每一模块构建的具体流程和方法,并对构建环节中遇到的具体问题及对策做出了阐述。
文章是对中古汉语研究型语料库构建过程和方法的总结,可以辅助人们更加深入地了解该语料库的总体概况和使用方法,对语料库理论的发展也可起到一定的补充作用。
关键词:语料库建设中古汉语语料标注语料检索一、前言自20世纪80年代始,中古汉语研究取得了长足进展。
然而遗憾的是,古汉语语料库的建设远远地落后于研究的进展。
综观国内外研究现状,要么对中古的语料收录不多,要么没有进行精细加工。
中古时期是汉语的质变期,中古汉语的研究对于理清汉语语音、词汇、语法等的发展脉络有着不可或缺的作用。
现今语料库中收录的中古语料十分不足,而未做分词标注等深层加工又在很大程度上减弱了语料库的整体使用价值。
为使中古汉语研究不断走向纵深,并有更加整体定性的研究方法和多层面的分析角度,建设深加工的研究型中古汉语语料库十分必要。
中古时期的语言面貌与现代很不相同,两者在语料库的构建上也必然存在差别。
一方面,无论在语言学理论,还是语料库理论上,针对现代汉语的研究均更为成熟。
特别是在分词标准、语法标注类别等方面,现代汉语成果颇多,不仅有权威的分词规范出版,句法分析、格语法、框架语法等多种语法研究也产生了大量研究成果。
中古汉语及其语料库构建理论的相关研究则还很薄弱,尚有待进一步探索。
另一方面,中古汉语语料库在构建技术上还比较落后,自动分词、自动标注的相关研究相对滞后,这不仅加大了人工操作的工作量,也不利于提高分词、标注的一致性,为语料库的构建质量埋下了隐患。
除此之外,由于中古汉语只存留在文献中,并不会出现在日常交际中,这使得语料库在构建目的、加工方法、加工层级上与现代汉语语料库也有所不同。
中医药古文献语料库建设的语料分类问题研究的开题报告
中医药古文献语料库建设的语料分类问题研究的开题报告
1. 研究背景和意义
随着科技和数字化技术的发展,大规模语料库的建设在人类语言学研究中起到了越来
越重要的作用。
中医药古文献是中华文化宝库中的一部分,对于中医药的研究具有非
常重要的意义。
通过对中医药古文献语料库的建设和分类研究,不仅可以有效地挖掘
中医药文化的历史价值和研究价值,而且也为中医药学科的后续发展提供了重要的数
据支持。
2. 研究内容和方法
本研究旨在建立一套中医药古文献语料库的分类体系和分类方法,包括以下内容:
(1)构建中医药古文献语料库原始数据集:从国内外公开或收集的中医药古文献资料中构建一份比较完整、具有代表性的数据集。
(2)制定中医药古文献语料库分类标准:通过对中医药古文献中的概念、术语、词语、句式等进行分析和整理,制定中医药古文献语料库的分类标准。
(3)建立中医药古文献语料库分类方法:结合中药学、中医学等领域的知识,设计中医药古文献的分类方法,并进行实验验证。
3. 研究计划
(1)前期准备:收集中医药古文献资料,构建初步数据集。
(2)中期研究:制定中医药古文献分类标准,设计分类方法。
(3)后期实验:基于所构建的中医药古文献语料库,对分类方法进行实验验证,并进行调整和优化。
(4)结论撰写:总结研究成果,撰写结论论文。
4. 预期成果与创新性
本研究将建立一套中医药古文献语料库分类标准和分类方法,为中医药文化的挖掘和
研究提供数据支持。
同时,本研究还将在中医药领域的数据挖掘方法和分类体系等方
面具有一定的创新性。
基于语料库中医典籍翻译中的文化自洽——以《黄帝内经》两译本为例
ENGLISH ON CAMPUS2022年14期总第610期基于语料库中医典籍翻译中的文化自洽——以《黄帝内经》两译本为例摘 要:中医学是中华民族智慧的结晶,也是中国传统文化的一部分。
在中医典籍的翻译中做到对文化的恰当理解,即“自洽”十分重要。
本文基于语料库对《黄帝内经》的两译本进行语言层面的统计分析,从词汇丰富度和词汇密度两个层面进行探索,研究两译本翻译过程中的文化自洽特征,以期给予传统典籍翻译一定启示意义。
关键词:料库;典籍翻译;《黄帝内经》作者简介:何燕(1987-),女,浙江湖州人,湖州职业技术学院,讲师,硕士。
中医典籍作为中医文化的文字传承形式,不仅是中华民族传统医学思维的历史沉淀,也折射出了中华民族观察、感知和理解世界所独具的思维范式。
中医文化所蕴含的核心价值观也逐渐为世界各地的人们所接受。
正确传承和发扬中医文化的进程中必须首先做到“文化自洽”,也就是对自身文化有恰当的理解、充分的认识。
本文以中医经典《黄帝内经》两译本(李照国译本及倪毛信译本)为例,利用自建英语译文语料库,结合中医典籍的文本特色、文化渊源及译者特征,研究分析语言层面的文化自洽特征。
一、相关研究回顾(一)中医典籍翻译中的文化认知费孝通认为,生活在一定文化背景下的人要对其文化有“自知之明”,明白它的来历、形成过程、所具有的特色和它的发展趋势,这也是文化自洽的体现。
中医文化由古至今,经历了沧桑变化却仍能在新时代中发挥新的作用,说明中医文化自身具有完备的哲学体系和文化特征。
中医典籍翻译中必须遵循的“自洽”表现为文本与话语之间的相互建构,主要体现在文本阐释和话语实践层面。
因此,译文理应符合某一典籍所在时代与地域的历史背景、时代礼节习俗、风格意境等。
译者应对源文不断进行勘校、释义,仔细揣摩,才能正确诠释该典籍所蕴含的文化历史信息或价值,并达成最大限度地文化自洽。
(二)中医典籍翻译中的问题中国古代中医典籍的正式外译始于 16 世纪末,最初并不是因为其医学价值而引起西方的关注,而是因其所承载的哲学、宗教、伦理等观念获得重视。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文章 编号 : 0 30 7 ( 0 8 0 —0 40 1 0 —0 7 2 0 ) 40 2 —7
中 医 药 古 文 献 语 料 库 设 计 与 开 发 研 究
刘 耀 ,段 慧 明 王 惠 临 周 扬 。 , , ,王 振 国。 李 宏 展 ,
( .中 国科 学 技 术信 息 研 究所 , 京 10 3 ;2 1 北 00 8 .北 京 大 学 计 算 语 言学 研 究 所 , 京 10 7 ; 北 0 8 1
3. I tt e o ns iut fChi s e ia i t r nd Lie a ur Sha do n v r iy ofT r iina ne e M d c lH s o y a t r t e, n ng U i e s t adto l
Ch n s e ii e i a i e e M d cn ,Jn n,S a d n 5 0 4, i a h n o g 2 0 l Ch n )
LI Ya ,DU A N u— ig U o H im n ,W AN G u—i ,ZH OU n 。,W AN G e — u 。 LIH o g z a H il n Ya g Zh n g o , n -h n
( . Isiu eo ce tf n c nc l no ma in o ia Be ig 1 0 3 Chn ; 1 n tt t fS in ica dTeh ia I f r to fChn , in 0 0 8, ia i j 2 I siu eo mp t t n l n usis . n tt t fCo u ai a g it ,Pe ig Unv ri o Li c k n iest Y,Be ig 1 0 7 ,Chn ; in 0 8 l j ia
理 论指导和技术支撑 。
关键词 : 算Biblioteka 应 用; 计 中文 信 息 处 理 ; 自然语 言 处 理 ; 料 库 ; 医 药 古 文 献 ; 识 工 程 语 中 知
中 图分 类 号 :TP3 1 9 文 献 标 识 码 :A
Re e r h o r sCr a i n a d De eo m e to s a c n Co pu e to n v l p n fChi e e Tr d to a e i i e n s a ii n lM d cn
维普资讯
第2卷 2
第 4期
中文信 息学 报
J OURN AL oF CH I NES NF E I ORM ATI oN PROCES I S NG
Vo .2 ,No 1 2 .4 J 1,2 0 u. 0 8
20 年 7 08 月
3 .山东 中 医药 大 学 文 献研 究所 , 山东 济 南 2 0 1 ) 5 0 4 摘 要 :专 业 领 域 语 料 库 是 对 专 业 领 域 文献 进 行 自然语 言 处 理 的 重 要 的 不 可 或 缺 的基 础 , 对 专 业 文 本 内容 与 意 是 图进 行 深 层 把 握 的 必 由之 路 。 通过 对研 究 背 号 的 分 析 , 一 步 明 析 了专 业 文 献 进 行 自然 语 言 处 理 的 必 要 性 , 在 进 并 对 专 业 文 献 语 料 库 的研 究特 点 进 行 分析 的基 础 上 , 入 探 讨 了专 业语 料 库 的 设 计 思 想 及 原 理 , 时 , 语 料 库 词 类 深 同 对 的 标 注 信 息 进 行 了深 入 研 究 。成 功 地 开发 了针 对 专业 领域 语料 库 的 辅 助 加 工 系 统 , 专 业 领 域 语 料 库 建 设 提 供 了 为
A b t a t:Dom an c p se s nta O t e n ur llng gepr e s n ord sr c i or usi s e ilt h at a a ua oc s i g f om an do um e s,e pe i ly f risc n— i c nt s cal o t o t nta d i e i na y i. Ba e he s e ii e e r h ba kgr e n nt nton a l ss s d on t p cfc r s a c c oun d, t s p e is lbor t s t c s iy a hi ap r fr tea a e he ne e st nd sgn fc nc fna ur ll n ag o e sn o m an d um e s A fe hean l ss o h h a t rsis o he d i iia e o t a a gu e pr c s i g f rdo i oc nt . t rt a y i n t e c ar c e i tc ft o— m an c pus,t s p i or hi ape r be nt he de i ta e nd prncpl om an c p on t u to r p o s i o t sgn s r t gy a i i e ofd i or usc s r c i n. M e nw h l a ie,i t
as n e t a e n o t e p r fs e c a g n n t e c r u .Fi al u n ad d p o e sn y t m o o i lo i v si t s i t h a to p e h t g i g i h o p s g n l a h ma — i e r c s i g s se f r d man y