正则表达式在中医文献研究中的应用初探

合集下载

正则表达式对疫病古方药物标准化处理方法的探讨

正则表达式对疫病古方药物标准化处理方法的探讨

正则表达式对疫病古方药物标准化处理方法的探讨引言:疫病是指由其中一种病原体引起的大规模传染性疾病,如近年来的新冠病毒疫情,对人类的生命和健康都造成了严重的威胁。

在传统中医领域,有许多古方药物对疫病有一定的疗效,然而由于古方药物的配方和命名方式多样,使得对其进行标准化处理变得非常困难。

本文将探讨如何利用正则表达式对疫病古方药物进行标准化处理的方法。

一、疫病古方药物的特点由于古方药物的命名和配方方式多样,导致了疫病古方药物的标准化处理变得非常复杂。

主要有以下几个特点:1.古方药物的配方非常复杂,常常由多种中药组合而成;2.古方药物的名称多样,可能存在多个别名;3.古方药物的方剂经过演变和传承,可能存在多个版本;4.古方药物的各种成分可能存在剂量差异;二、正则表达式在标准化处理中的应用1.根据古方药物的配方特点,可以利用正则表达式来提取出其中的各个成分。

例如,可以使用正则表达式从方剂中提取出中药名称、剂量等信息,从而实现对方剂的标准化处理。

2.古方药物的名称多样化,可以使用正则表达式来进行匹配和规范化。

例如,可以利用正则表达式将具有相同疗效的药物名称进行统一,并建立一个标准的药物名称数据库。

3.古方药物的方剂多个版本存在,可以利用正则表达式对方剂的版本进行识别和分类。

例如,可以使用正则表达式提取方剂名称中的年代信息,从而对方剂进行版本区分。

4.古方药物的剂量差异可以通过正则表达式实现。

例如,可以使用正则表达式提取方剂中的剂量信息,并进行标准化处理,从而确保不同版本的方剂中的药物剂量一致。

三、案例分析以葛根汤为例,葛根汤是一种古代中医方剂,用于治疗发热、口渴等症状。

其方剂为“葛根15g,芍药15g,生薏苡仁30g,生粳米60g,煮取汁,去滓,和药温服”。

我们可以使用正则表达式对其进行标准化处理。

首先,使用正则表达式提取出方剂中的各个成分及其剂量:```葛根15g,芍药15g,生薏苡仁30g,生粳米60g```然后,对各个成分进行规范化处理,将成分名称和剂量分开:```成分名称:葛根、芍药、生薏苡仁、生粳米剂量:15g、15g、30g、60g```接下来,对成分名称进行匹配和规范化处理,将相同疗效的药物名称统一:```葛根->葛根芍药->芍药生薏苡仁->薏苡仁生粳米->粳米```最后,对剂量进行规范化处理```15g->15g30g->30g60g->60g```通过以上的标准化处理,我们可以得到一个规范化的葛根汤方剂:```葛根15g,芍药15g,薏苡仁30g,粳米60g```结论:正则表达式作为一种强大的匹配工具,可以在疫病古方药物的标准化处理中发挥重要作用。

基于句子匹配的《黄帝内经》异文自动发现研究

基于句子匹配的《黄帝内经》异文自动发现研究

基于句子匹配的《黄帝内经》异文自动发现研究作者:谢靖来源:《科技视界》2015年第35期【摘要】异文研究对于我国中医古籍文献的整理、勘校、史学具有重要价值。

本文利用句子匹配算法,对四个版本《黄帝内经》进行了自动异文发现研究。

结果表明:句子配对算法能够正确发现全部符合定义的异文,对中医古文献异文自动化研究具有非常重要的实践价值。

【关键词】异文;句子匹配;黄帝内经0 引言异文是指古代同一文字材料在流传过程中出现的文句互异,中医古籍文献中存在大量异文,对其中因通假、古今、异体字而造成的异文进行对比分析有助于中医古籍文献的学习与研究。

我国异文研究历史悠久,古人对经传的注疏中就发掘了许多异文,近现代也有不少学者系统研究中国古籍的版本异文:李索以抄成于南北朝至初唐时期的写卷《春秋经传集解》与以宋刻本为底本的传世本相比勘的异文为研究对象,对敦煌写卷《春秋经传集解》进行了对比研究[1];秦淑华通过词语异文考察了《史记》与《战国策》的异文情况,为研究先秦时期的中国史学文献提供了支持[2];俞绍宏等通过敦煌写本《诗经》异文中的隶定古文异文,研究其先秦古文字的隶定形式的手写形,展现中文古籍中的正字异体[3]。

自20世纪90年代以来,随着计算机技术的发展,学者们提出了一系列利用信息技术进行异文研究的方法:常娥等描述了中国古籍自动校勘系统的设计及实现,并进行了实际勘校[4];肖磊等提出了基于句珠相似度的古籍异文版本自动识别算法,能够在异文句珠中不断地去掉最长同文,并输出异文结果[5]。

本研究旨在通过句子匹配算法,对中医古籍文献的经典《黄帝内经》进行不同版本的异文自动识别。

通过自动化的异文比对,实现对中医古籍文献异文的快速提取,为中医古籍文献异文研究及中医古籍文献智能化信息处理研究做有益探索。

1 数据来源与收集整理文章以《黄帝内经》中的《素问》作为研究对象,展现句子匹配算法在中医古籍文献异文自动发现工作中的实际效果。

对于《黄帝内经》的异文研究,一直是中医文献学家的关注热点:郝娟、沈澍农将《灵枢经》《黄帝内经太素》异文根据形成原因和形音义联系归纳为八种基本类型,并进一步分析例释[6];李怀芝以《素问》、《灵枢》、《太素》、《甲乙经》为对象,进行了文句互异对比[7]。

利用正则表达式提取文献的题目

利用正则表达式提取文献的题目

利用正则表达式提取文献的题目在科学研究和学术交流中,文献的题目是非常重要的信息之一。

正常情况下,我们可以通过阅读文献的全文或者浏览文献的摘要来获取文献的题目。

但是,当我们需要处理大量文献数据时,手动提取每篇文献的题目显然是非常耗时耗力的。

那么有没有一种自动化的方式,可以快速地提取出文献的题目呢?答案是肯定的,那就是利用正则表达式。

正则表达式是一种描述字符模式的工具,它可以用来匹配、查找、替换字符串等操作。

在提取文献题目的场景中,我们可以利用正则表达式来匹配并抽取出符合要求的文本信息。

接下来,我将为大家介绍如何利用正则表达式提取文献的题目。

首先,让我们来看一下文献的题目通常具备的一些特征。

文献的题目通常位于文献的开头部分,由一段文字组成。

那么我们可以使用正则表达式来匹配以一段文字开头的部分,进而提取出文献的题目。

下面是一个示例的正则表达式,用于提取文献的题目:^[^\n\r]*让我们来解析一下这个正则表达式。

首先,^表示匹配一行的开头,[^\n\r]表示非换行符和回车符,*表示匹配前面的表达式零次或多次。

所以这个正则表达式的含义是匹配一行开头的所有非换行符和回车符的字符,也就是一行开头的所有文字。

接下来,让我们看一个实际的例子,使用Python来实现通过正则表达式提取文献的题目。

```pythonimport redef extract_title(text):pattern = r"^[^\n\r]*"match = re.search(pattern, text)if match:return match.group().strip()else:return None# 示例文献paper = """Title: A Survey on Regular Expression Usage in Natural Language ProcessingAbstract:...Introduction:...Conclusion:..."""title = extract_title(paper)print(title)```在这个例子中,我们定义了一个extract_title函数,它接受一个字符串参数text,并返回提取得到的题目。

正则表达式在汉语语料检索中的应用

正则表达式在汉语语料检索中的应用

正则表达式在汉语语料检索中的应用
秦洪武;王克非
【期刊名称】《外国语文(四川外语学院学报)》
【年(卷),期】2013(029)006
【摘要】正则表达式能充分描述检索的条件,实现语言数据的精确提取.本文探讨正则表达式用于汉语语料检索的问题,分析了汉语元字符使用的特殊性,提出了反映汉语词汇和语法特点的表达式编写方法,并以实例展示了正则表达式在汉语语料检索时的使用效果.
【总页数】6页(P74-79)
【作者】秦洪武;王克非
【作者单位】曲阜师范大学外国语学院,山东曲阜273165;北京外国语大学中国外语教育研究中心,北京100089
【正文语种】中文
【中图分类】H313
【相关文献】
1.正则表达式在语料库研究中的应用 [J], 吴进善
2.正则表达式的获取及在语料库研究中的应用 [J], 石志亮
3.正则表达式在语料库建库与检索中的应用 [J], 刘瑞
4.正则表达式在PDTB语料数据预处理中的应用 [J], 贾震斌
5.数字出版知识服务中的传统文化表达及应用
——兼谈汉语语料库中的汉语成语语义韵特点 [J], 胡雪婵
因版权原因,仅展示原文概要,查看原文内容请购买。

基于大数据的中医文献数据挖掘

基于大数据的中医文献数据挖掘

基于大数据的中医文献数据挖掘一、引言中医文献是中医学的重要组成部分,包含了丰富的医疗知识和经验。

随着大数据技术的发展,利用大数据来挖掘中医文献中的有价值信息成为了一项重要的研究任务。

本文将介绍基于大数据的中医文献数据挖掘的方法和应用。

二、数据收集与预处理1. 数据来源中医文献数据可以从各种渠道获取,如中医药大学图书馆、国家中医药管理局等。

可以通过爬虫技术自动获取文献数据,也可以通过与相关机构合作获取。

2. 数据清洗与整理获取到的中医文献数据可能存在格式不一致、缺失值等问题,需要进行数据清洗和整理。

可以利用文本处理技术,如正则表达式、自然语言处理等,对文献数据进行清洗和格式化。

三、中医文献数据挖掘方法1. 关键词提取通过分析中医文献中的关键词,可以了解中医学的研究热点和重点。

可以使用词频统计、TF-IDF等方法来提取关键词。

2. 主题模型主题模型可以帮助我们发现中医文献中隐藏的主题和关联性。

常用的主题模型包括Latent Dirichlet Allocation (LDA)、Probabilistic Latent Semantic Analysis (PLSA)等。

3. 情感分析情感分析可以帮助我们了解中医文献中的情绪倾向和态度。

可以使用机器学习算法,如支持向量机、朴素贝叶斯等,对文献进行情感分类。

4. 知识图谱构建通过构建中医文献的知识图谱,可以揭示中医学的知识体系和关联关系。

可以使用图数据库和知识图谱构建工具,如Neo4j、Protégé等,来构建中医文献的知识图谱。

四、中医文献数据挖掘的应用1. 疾病预测通过分析中医文献中的疾病相关信息,可以建立疾病预测模型。

可以利用机器学习算法,如决策树、随机森林等,来预测疾病的发生和发展趋势。

2. 药物研发通过分析中医文献中的药物相关信息,可以发现潜在的药物候选物。

可以利用数据挖掘算法,如聚类分析、关联规则挖掘等,来发现药物之间的关联性和相互作用。

中医文献论文题目选题参考

中医文献论文题目选题参考

中医文献论文题目一、最新中医文献论文选题参考1、中医文献癃闭证病因病机探析2、清代中医文献特点与医学发展3、大肠癌防治方药的中医文献研究4、中医文献研究中的统计学应用概况5、中医文献对老年痴呆证治规律的认识6、基于中医文献的抑郁症常见证候及证候要素分布特点的研究7、骨痹古代中医文献研究8、眩晕证防治方药的中医文献研究9、从阳虚论治失眠中医文献评析10、试述中医文献对面瘫的认识11、原发性青光眼古今中医文献整理研究12、便秘古代中医文献研究13、中医文献对直肠癌病因病机的的探讨14、语言、文化和中医文献英译15、胃脘痛中医文献与证治研究16、中医文献学术研究刍议17、当代中医基础学科群架构形成的历史局限性——兼论中医文献研究在基础学科理论构建与规范中的地位18、内容分析法在中医文献研究中的应用19、试论中医教育中开设中医文献学课程的目的和意义20、老年性痴呆的中医文献研究二、中医文献论文题目大全1、肝阳上亢证中医文献研究2、高血压病古今中医文献的整理与研究3、消渴病历代中医文献理论研究4、基于中医文献的中风病研究5、中医文献治疗狂犬病方法探析6、乳岩证治的中医文献研究7、肝阳上亢证中医文献研究8、痛风中医文献解析9、二十世纪以来考古发现的中医文献考述10、正则表达式在中医文献研究中的应用初探11、充分发挥中医文献的潜在宝藏12、中医文献英译的异化和归化13、清代中医文献特点与医学发展14、论中医文献及文献学在中医学中的地位15、胃癌证治的中医文献研究16、论中医文献研究的三个面向17、抑郁症中医文献溯源18、论中医文献研究的三个面向19、基于中医文献检索的颈淋巴结核中医证候规律分析20、中医文献——发展中医学术的最有力支撑三、热门中医文献专业论文题目推荐1、秦汉时期中医文献对镇痛中药的原创性贡献2、小儿癫痫中医文献与证治研究3、消渴病中医文献与证治方药规律研究4、中医文献学课程运用PBL教学法的思路5、慢性萎缩性胃炎近10年中医文献研究6、古代中医文献中对肝硬化的认识7、消渴病(糖尿病)证治的中医文献研究8、卵巢早衰的中医文献研究进展述要9、慢性胃炎的中医文献评价与数据挖掘进展10、基于体质调理的温阳法防治胃癌的中医文献研究11、治疗牙痛方药中医文献研究12、湖湘中医文献的特点、作用及研究内容13、慢性盆腔炎的现代中医文献研究14、心力衰竭古今中医文献的整理与研究15、中医文献研究对临床实践的影响16、乳癖(乳腺增生病)的中医文献研究17、在中医文献的英译中重视汉英民族思维模式和语言结构的差异18、中医文献研究的现状与对策19、试论中医文献的基本性质20、简述中医文献关于伤口的处理四、关于中医文献毕业论文题目1、中医文献2、帕金森病的中医文献研究3、中医文献学4、古代中医文献对食管癌的认识5、中医文献对中风病的阐述与述评6、冠心病心绞痛古今中医文献整理与研究7、多囊卵巢综合征的现代中医文献研究8、国内艾滋病中医文献的证候研究评价9、中医文献英译的文化对等10、中医文献关于胃脘痛病名及病因考释11、冠心病(胸痹心痛)中医文献及病证研究12、小儿咳喘病证古代中医文献数据库的建立13、心律失常现代中医文献的整理与研究14、基于中医文献检索的肺结核病中医证候规律分析15、不孕症中医文献的研究16、哮喘病的古代中医文献研究17、从中医文献探讨“脾”的解剖学基础18、古代中医文献对于尿失禁的认识和治疗述要19、基于中医文献探析中医治疗肺癌的临床用药规律20、不同翻译手段在中医文献翻译中的辨证施用五、比较好写的中医文献论文题目1、中医文献分类发展概况2、鼻疗法在脑病防治应用中的中医文献研究3、计算机数据库技术在中医文献管理和研究中的应用4、古代中医文献研究方法探讨——兼论马继兴古代中医文献研究方法5、中医文献中的专病通治方6、古代中医文献中解颅方剂的统计学研究7、中医文献学8、中医文献整理研究之我见9、泛系理论影响下的中医现象学知识网联新研究─—QMSOC与中医文献工程(Ⅲ)10、中医文献有关"老年呆病"的论述11、基于扎根理论和内容分析法的疲劳中医文献病因病机研究12、分享阅读法在中医文献学教学中的改革与实践13、以双语对应语料库快译中医文献的研究14、胃癌相关病证中医文献研究15、高等中医文献专业实践教学目标管理探析16、原发性青光眼的中医文献学研究17、基于现代中医文献研究的肺结核中医证候规律初探18、传承祖国医学文化,促进中医文献利用——简介《全国中医图书联合目录》19、中医文献教学研究的思路探索20、试论中医医院名老中医文献数据库建设意义及设计原则。

中医文献学在现代医疗中的应用有哪些

中医文献学在现代医疗中的应用有哪些

中医文献学在现代医疗中的应用有哪些中医文献学是一门研究中医文献的学科,它涵盖了对中医古籍、经典著作、医案、方书等各种文献资料的整理、研究和利用。

在现代医疗中,中医文献学发挥着重要而多样的作用,为医疗实践、科研创新和医学教育等方面提供了宝贵的支持。

一、为临床诊断和治疗提供参考中医文献中蕴含着丰富的临床经验和治疗方法。

古代医家通过长期的实践和观察,积累了对各种疾病的认识和治疗心得,并记录在文献之中。

现代医生在面对复杂的病症时,可以通过查阅中医文献,借鉴古人的智慧,为诊断和治疗提供新的思路和方法。

例如,对于一些疑难杂症,现代医学可能暂时缺乏有效的治疗手段。

此时,医生可以从古代医籍中寻找类似病症的记载,参考古人的用药和治疗方案,结合现代医学的诊断技术和药物,进行创新性的治疗尝试。

又如,中医文献中有关疾病的病因病机分析,能够帮助医生更深入地理解疾病的本质,从而制定出更精准的治疗策略。

二、助力中药研发与应用中医文献对于中药的研究和开发也具有重要意义。

许多古代本草著作详细记载了中药的性味、归经、功效、用法用量以及炮制方法等。

这些记载为现代中药的研发提供了丰富的素材和理论基础。

通过对中医文献的研究,可以发现一些具有潜在药用价值的中药资源。

同时,文献中关于中药配伍的经验和规律,能够为现代药物组合的研究提供参考,提高药物的疗效和安全性。

此外,古代医家对中药炮制方法的记载,有助于优化现代中药的炮制工艺,保证中药的质量和疗效。

三、促进中医理论的传承与创新中医文献是中医理论传承的重要载体。

《黄帝内经》《伤寒杂病论》等经典著作构建了中医理论的基本框架,历代医家的著述又对这些理论进行了不断的丰富和发展。

在现代医疗中,深入研究中医文献有助于更好地传承中医理论的精髓,并结合现代科学技术和临床实践进行创新。

例如,对中医文献中关于经络气血、脏腑功能等理论的研究,可以为现代针灸推拿、康复治疗等提供理论支持。

同时,利用现代生物学、物理学等学科的研究方法,对中医理论进行验证和阐释,推动中医理论的现代化发展。

中药行业中的药物信息与文献检索技巧

中药行业中的药物信息与文献检索技巧

中药行业中的药物信息与文献检索技巧在中药行业中,获取准确的药物信息和文献是非常重要的。

药物信息和文献可以帮助从业人员了解中药的性质、用途、剂量等重要信息,为临床实践和科学研究提供有力支持。

然而,由于信息量庞大且多种多样的药物文献类型,如何高效地进行药物信息和文献检索成为一项关键技能。

本文将介绍中药行业中的药物信息和文献检索技巧,帮助从业人员更好地利用相关资源。

一、药物信息检索技巧药物信息检索是从已有的数据库中检索与药物有关的信息,帮助从业人员获取准确且及时的药物相关资料。

以下是一些药物信息检索的技巧:1.选择合适的数据库:中药行业存在许多与药物相关的数据库,如中国知网、维普中文期刊数据库、万方数据库等。

根据自己的需求和实际情况,选择合适的数据库进行检索。

2.关键词的选择:在进行药物信息检索时,关键词的选择非常重要。

关键词应该准确描述你所需要的药物信息,如药名、疾病名称、药理作用等。

可以根据自己的需求结合使用不同的关键词进行检索,以获取更全面的信息。

3.筛选搜索结果:当得到一系列搜索结果后,需要进行筛选。

首先,根据你的需求和研究目的,筛选出与你所关注的方面相关的文献。

其次,根据文献的质量和来源进行筛选,尽量选择正规期刊上发表的高质量文献。

二、药物文献检索技巧药物文献检索是指通过检索相关文献数据库,获取与药物有关的学术论文、期刊文章、专利文献等。

以下是一些药物文献检索的技巧:1.选择合适的文献数据库:在进行药物文献检索时,需要选择具有丰富资源且权威可信的文献数据库,如PubMed、Embase、中国知网等。

不同的数据库可能具有不同的文献资源,因此根据需求选择合适的数据库进行检索。

2.使用正确的检索语法:在进行药物文献检索时,使用正确的检索语法可以提高检索效果。

掌握检索逻辑运算符(AND、OR、NOT)、通配符(*、?)和括号等,可以帮助你更准确地检索所需信息。

3.查找全文文献:在获取文献信息后,你可能需要查找全文以获得更详细的内容。

医学文献检索与利用在中医药临床指导中的应用

医学文献检索与利用在中医药临床指导中的应用
03
提出加强医学文献检索与利用在中医药领域应用的 建议和措施,推动中医药学的创新发展。
医学文献检索与利用在中医药领域的重要性
丰富中医药学的理论体系和临床实践经验
通过医学文献检索和利用,可以系统地梳理和挖掘中医药学的理论体系和临床实践经验, 为中医药学的创新发展提供有力支撑。
推动中医药学的国际化发展
对搜集到的文献进行综合分析,总结归纳出该疾病的中医辨证分型标 准、治疗原则及优化方案等方面的研究进展。
结合临床实践,探讨该疾病中医辨证分型的准确性和实用性,以及诊 疗方案的优化效果和应用前景。
05
医学文献检索与利用在中医药临床指导中 的挑战与展望
当前面临的挑战
文献资源分散
中医药相关文献资源分散 在众多数据库、期刊、会 议论文等中,缺乏统一整 合平台,给检索带来不便
04
结合现代科技手段,对该名老中医经验方进行传承和推广,提高其在 临床实践中的应用价值。
案例三:某中药方剂作用机制及临床应用研究
通过检索相关医学文献,了解 该中药方剂的药物组成、功效 主治等基础知识。
对搜集到的文献进行综合分析 ,探讨该中药方剂的作用机制 、药效物质基础及临床应用等
方面的研究进展。
06
结论
研究成果总结
医学文献检索与利用在中医药临床指导中具有重要意义,通过有效检索和利用医学文献,可以获取最 新的中医药研究成果和临床实践经验,为临床医生提供有力的决策支持。
本研究通过系统梳理和分析相关医学文献,总结了中医药在常见病症治疗中的有效方法和药物,为临床 医生提供了更加全面和准确的中医药治疗信息。
辨证施治与个体化诊疗方案制定
辨证施治的方法
包括望闻问切四诊合参、八纲辨证、脏腑辨证、六经 辨证等,以获取准确的辨证结果。

中医临床文献研究及应用

中医临床文献研究及应用

中医临床文献研究及应用中医作为中国传统医学的重要组成部分,历史悠久,源远流长。

在长期的临床实践中,中医医师积累了大量宝贵的治疗经验和知识,形成了独特的理论体系和诊疗方法。

而中医临床文献则是中医理论的重要载体,记录了中医医家的思想、经验和见解,对于推动中医学科研和临床实践具有不可替代的作用。

一、中医临床文献的特点中医临床文献包括经典著作、名医方书、医案、医话等多种形式,蕴含着丰富的中医医学智慧。

这些文献内容通俗易懂,言简意赅,对于中医临床实践具有指导意义。

中医临床文献的特点主要包括以下几个方面:(1) 系统性强:中医临床文献凝聚了中医医家的临床实践经验和理论总结,涵盖了中医诊断、治疗、药物应用等方方面面,具有很强的系统性。

(2) 实用性强:中医临床文献立足于实际临床,为临床医师提供了大量实用的治疗方法和方药选择,对于临床实践具有很高的参考价值。

(3) 传承性强:中医临床文献是中医传统医学的珍贵文化遗产,承载了丰富的历史文化底蕴,对中医学术的传承具有重要意义。

二、中医临床文献的研究意义中医临床文献的研究对于推动中医学科研和临床实践具有重要的意义。

通过对中医临床文献的深入研究,可以挖掘和总结中医医家的经验和智慧,发掘中医理论的精华,促进中医治疗技术的提高和创新。

中医临床文献的研究意义主要表现在以下几个方面:(1) 丰富中医理论:中医临床文献是中医理论的重要来源之一,通过研究这些文献可以深入了解中医学的基本理论,拓展中医学的思维方式,促进中医理论的发展和完善。

(2) 提升临床实践水平:中医临床文献中蕴含了大量的治疗方法和方药选择,通过研究这些文献可以为临床医师提供实用的指导,提升其临床实践水平。

(3) 促进中医文化传承:中医临床文献是中医文化的重要组成部分,通过研究这些文献可以更好地传承和弘扬中医文化,推动中医学术的繁荣和发展。

三、中医临床文献的应用中医临床文献的应用范围非常广泛,涉及中医临床、科研、教学等多个领域。

中医药古籍的检索方法及其应用

中医药古籍的检索方法及其应用

中医药古籍的检索方法及其应用殷桂香【期刊名称】《中华医学图书情报杂志》【年(卷),期】2017(26)2【摘要】中医药古籍浩如烟海,正确、充分利用这些古籍对于中医药事业的传承和发展有着重要意义。

古籍的检索可通过字词典、书目、类书、专著及其他非医书资料等传统工具书,也可利用中医古籍数据库。

全面介绍了中医古籍检索的各类方法,并通过具体案例从古代医家资料、中医药专题资料及医史资料三方面介绍了不同中医药古籍检索方法的应用。

%The number of ancient books on traditional Chinese medicine is tremendous, it is thus of great impor-tance to make full use of them for the inheritance and development of the cause of traditional Chinese medicine. Ancient books on traditional Chinese medicine can be retrieved either by using of dictionaries, bibliographies, books arranged according to subjects, monographs, and other nonmedical materials or by using of databases of ancient books on traditional Chinese medicine. Different retrieval methods of ancient books on traditional Chinese medicine and their application were thus described in this paper.【总页数】4页(P75-78)【作者】殷桂香【作者单位】上海中医药大学,上海 201203【正文语种】中文【中图分类】R2-5;G254.9【相关文献】1.谈中医药古籍的检索与应用 [J], 李晓艳2.中医药古籍中数学概念的应用和发展 [J], 刘小雨;韦小雪;刘彗;付玲;杨丽丽;蒋璐鹭;巩江;倪士峰3.国外标准检索方法的应用:第三讲国外标准的英语检索方法 [J], 钟嘉生4.巴蜀中医药古籍医案数据挖掘系统构建及应用 [J], 聂佳;任玉兰;江蓉星;许霞5.基于中医药古籍与现代文献的虎杖临床应用及不良反应情况分析 [J], 刘博;阳洁;宋海波;孙晓波;孙桂波;朱兰;郭晓昕;逄瑜因版权原因,仅展示原文概要,查看原文内容请购买。

基于中医疾病相关语义关系的正则表达式及知识抽取研究

基于中医疾病相关语义关系的正则表达式及知识抽取研究

基于中医疾病相关语义关系的正则表达式及知识抽取研究朱玲;朱彦;杨峰【摘要】目的:目前已有的知识抽取方法虽然多面向英文,但中文医学文献的数量也正在迅速增长,而且中医古籍文献中也有很多有价值的知识需要获取.基于此,本文以疾病“崩漏”为例,以正则表达式为规则,试图抽取中医古籍中疾病相关的知识,以构建中医疾病知识的语义框架.方法:建立崩漏相关的等同关系、因果关系、治疗关系的正则表达式,进而建立以正则表达式为规则的知识抽取及可视化平台.结果:实现对崩漏相关知识框架的抽取与表达,通过人工抽取和计算机知识平台抽取方式构建中医疾病语义框架,并在此基础上完成中医疾病相关的知识框架描述.结论:研究发现,以正则表达式为规则的知识抽取可视化平台,可以实现对崩漏相关知识框架的抽取与表达,并为中医疾病知识的逻辑化描述与未来的抽取及应用提供了方法,为实现中医疾病相关的知识框架描述奠定基础,可单一地基于正则表达式的信息抽取方式难以达到很好的召回率,如果在正则表达规则的基础上考虑篇章结构,同时整合机器学习与语义标注的混合信息抽取方法可能进一步提高抽取的效能.【期刊名称】《世界科学技术-中医药现代化》【年(卷),期】2016(018)008【总页数】10页(P1241-1250)【关键词】崩漏;疾病;正则表达式;知识抽取【作者】朱玲;朱彦;杨峰【作者单位】中国中医科学院中医药信息研究所北京 100700;中国中医科学院中医药信息研究所北京 100700;中国中医科学院中医药信息研究所北京 100700【正文语种】中文【中图分类】R277.7中医药学历经2000余年的历史,积累了数以万计的经典文献,其中蕴含的宝贵知识至今都有指导临床的实际意义,但如何从大量的中医文献中获取需要的知识,是极具研究价值的领域。

而信息抽取是可行的方法之一。

目前,信息抽取主要有两大方法∶ 一是知识工程方法,二是自动训练方法[1]。

知识工程方法主要靠手工编制规则使系统能处理特定知识领域的信息抽取问题。

正则表达式在中医文献研究中的应用初探

正则表达式在中医文献研究中的应用初探

示 处方用药, “ 如 熟地 八两 ”等等。不仅如此, 在这些模式之 外, 医案 中还 常加标示词, 形成模式嵌套, 以进一步 明确语意, 如 “ 辨证 : ”标 示紧 随其后的文字表示证型,“ 治以”标示其后
是 治 法 ,“ 方 : 处 ”表 示 其 后 为 用 药 。
献研究不可多得 的辅助工具。故撰文于此, 以飨 同道 。
的文本组织方式, 即更 多地运用 “ 模式”来表达语意 。这就使 得文本中的有用 信息可 以通过某种模式被唯一地辨识出来 。 例 如医案中常以“ +左 ( ” 姓 右) 的模式来表 示一个患者及 其姓名、
性 别 , “ 左 ” 表 示 一 个 姓 张 的男 性 患 者 ;以 “ 如 张 , 部位 +描 述 ” 来 表示 一个 症 状 , “ 痛 ” 腹 胀 ”, 中 “ 位 ”又 可 以省 如 头 、“ 其 部 略 , “ 力 ”等 ; 以脏 、腑 、气 、血 、津 液 与 八 纲 相互 组 合 如 乏 表 示 一个 证 型 , “ 阳虚 ” 如 肾 ;以 “ +数 词 +量 词 ”的模 式 表 词
查询中国方剂数据库, 关键词为 “ 便秘”, 查询字段为 “ 主 治 ”, 回 5 8首方剂。用 “ 返 9 套录”的方法批量下载方剂, 将所
件。 因此 , 制 合 适 的正 则 表 达 式 , 以一 次 性提 取 大 量 文 献 中 编 可 的 有 用 信 息 , 而 大 大 节 省 文 献 研 究 的人 力 , 高 结 果 的准 确 从 提
度 和可 信 度 。
表达式是一种十分简 单程序 语言, 专门用 以表示模式, 即文
本 构成 的某 种 规 则 。 此 基础 上, 合 特 定 工具 所 提 供 的 支 持 , 在 配 正 则表 达 式 可 以对 文本 进 行 添 加 、删 除 、分 离 、叠 加 、 插 入 、

正则表达式在医院信息系统中的应用研究

正则表达式在医院信息系统中的应用研究

正则表达式在医院信息系统中的应用研究
李超峰;干峰;胡珊
【期刊名称】《医学信息》
【年(卷),期】2009(022)001
【摘要】本文分析了正则表达式在医院信息系统中校验数据有效性、防止SQL注入、实现模式识别、简化数据查询方面的应用.指出了正则表达式在提高医院信息系统数据质量、系统安全性和可用性方面的意义,并以实际工作中碰到的问题为例.用C#语言描述了正则表达式的应用方法.
【总页数】3页(P1-3)
【作者】李超峰;干峰;胡珊
【作者单位】中山大学附属肿瘤医院信息科,广东,广州,510080;中山大学附属肿瘤医院信息科,广东,广州,510080;中山大学北校区计算机教研室,广东,广州,510080【正文语种】中文
【中图分类】TP3;R1
【相关文献】
1.正则表达式在英语语调统计分析中的应用研究 [J], 杨雨;胡亚娟;林萍
2.正则表达式在数据抓取中的应用研究 [J], 陈增鑫;欧阳林艳;龚思思;杨煜彬
3.正则表达式在医院信息系统中的应用研究 [J], 李超峰;干峰;胡珊
4.正则表达式在控制MARC数据质量中的应用研究 [J], 徐延华;李静
5.正则表达式在数据抓取中的应用研究 [J], 陈增鑫;欧阳林艳;龚思思;杨煜彬;
因版权原因,仅展示原文概要,查看原文内容请购买。

《黄帝内经》知识表示与标引研究

《黄帝内经》知识表示与标引研究

第44卷第5期山东中医药大学学报Vol.44,No.5 2020年9月JOURNAL OF SHANDONG UNIVERSITY OF TCM Sep.2020《黄帝内经》知识表示与标引研究王勇,王凤兰(中国中医科学院中国医史文献研究所,北京100700)[摘要]以中医经典《黄帝内经》为研究对象,以临床需求为导向,采用文献研究、专家判断与信息技术相结合的方式,将原文篇章进行知识分类;以中医古籍语言系统语义类型和语义关系为参照,对《素问》《灵枢》部分篇章进行概念实体、语义类型及语义关系的深度标引,并新增“人群生活方式”两个语义类型,优化了中医古籍语言系统。

为实现面向临床需求的中医药古籍知识服务提供方法学的探索,为中医古籍标引及深度利用提供范式,为中医古籍的深度利用提供可能,为构建半自动甚至全自动的中医古籍标引系统奠定基础。

[关键词]中医古籍;《黄帝内经》;知识表示;标引;语义类型;语义关系[中图分类号]G354[文献标志码]A[文章编号]1007-659X(2020)05-0585-06 D0I:10.16294/ki.1007-659x.2020.05.026Research on Knowledge Representation and Indexing of^Huangdi's Cannon of Internal Medicine^WANG Yong,WANG Fenglan(Institute of Chinese Medical History and Literature,China Academy of Chinese Medical Science,Beijing 100700,China)Abstract This study takes Huangdi's Cannon of Internal Medicine,the classic of traditional Chinese medicine,as the research object;takes clinical needs as the guide,uses literature research,expert judgment and information technology to classify the original text into knowledge categories.Based on the semantic types and semantic relations in the language system of ancient books of Chinese medicine,this paper makes a deep indexing of the conceptual entities,semantic types and semantic relations in some chapters of Basic Questions and The Spiritual Pivot,and adds two semantic types of“population”and“lifestyle”to optimize the language system of ancient books of Chinese medicine.This study is to provide methodological exploration for realizing the knowledge service of ancient books of Chinese medicine facing clinical needs,provide a paradigm for the indexing and in-depth use of ancient books of Chinese medicine,provide the possibility[收稿日期]2020-08-10[作者简介]王勇(1980-),男,山东单县人,在站博士后,主要从事中医古籍整理和利用研究。

略谈中医文献主题词的标引

略谈中医文献主题词的标引

略谈中医文献主题词的标引
严慧
【期刊名称】《中医研究》
【年(卷),期】1989(000)003
【摘要】无
【总页数】3页(P48-50)
【作者】严慧
【作者单位】无
【正文语种】中文
【相关文献】
1.交通汉语主题词表及主题词辅助标引系统 [J], 王辉;张丽
2.中文全文标引的主题词标引和主题概念标引方法1 [J], 韩客松;王永成
3.全军军用主题词表编管会常务副主任、军事科学院副院长葛东升在全军“军用主题词表辅助标引系统”使用骨干培训班开学式上的讲话 [J],
4.局解手术学杂志 2006年第15卷主题词索引(根据《医学主题词注释字顺表》标引主题词,按主题词汉语拼音顺序排列) [J],
5.功能凸显问题突出——《〈中国分类主题词表〉标引手册》“人物主题词——分类号对照表”述评 [J], 刘少武
因版权原因,仅展示原文概要,查看原文内容请购买。

正则表达式在中医文献研究中的应用初探

正则表达式在中医文献研究中的应用初探

正则表达式在中医文献研究中的应用初探【关键词】正则表达式;中医文献;自然语言理解中医文献浩如烟海,《中国中医古籍总目》收录1949年以前的中医古籍,总数达到13 455种[1];解放后,随着中医学的发展,中医文献资料更是日渐增多。

庞大规模的资料,为中医文献研究提供了丰富的内容,但同时也决定了其研究任务的繁重性。

面对这种情况,只有寻找一种能够从海量文献中抽取有用信息的辅助工具,将文献研究化繁为简,才能有效地扩大文献利用的规模,从而提高研究结果的精确度和可信度。

笔者实践发现,正则表达式正是这样一种可以方便地从海量中医文献中抽取特定信息的工具,并且具有简单易学的特点,实为中医文献研究不可多得的辅助工具。

故撰文于此,以飨同道。

1 正则表达式正则表达式(Regular Expression)是广泛应用于信息技术领域的文本处理工具,具有强大、便捷、高效的特点。

正则表达式是一种十分简单的程序语言,专门用以表示模式,即文本构成的某种规则。

在此基础上,配合特定工具所提供的支持,正则表达式可以对文本进行添加、删除、分离、叠加、插入、修整等操作[2]。

“模式”是一类事物的共有特征,而正则表达式的强大之处正是在于其对模式的表达。

“模式”是人们思考问题和描述事物时不可或缺的逻辑工具,只有对某一类事物有了深入的认识,概括出其共有的特征,即掌握了该事物的模式,才有可能构建概念,并在概念的基础上通过逻辑来进行推理和判断。

可以说“模式”是思考和描述的基础,因此它于自然语言中无所不在。

事物的模式,在自然语言中往往通过特定的语言模式表示出来。

比如“××是××”,即通过“名词1+是+名词2”的语言模式来表示“名词2”对“名词1”属性的说明。

一般而言,文字表达比语言更偏重于对模式的应用,因此文本往往表现出更为规范和密集的模式,更有利于发挥正则表达式的作用,而这一特点,在中医文本中表现得尤为突出。

大多数程序语言都支持正则表达式,在编程中调用正则表达式来解决问题可以最大限度地发挥正则表达式的威力。

正则表达式的应用研究

正则表达式的应用研究

正则表达式的应用研究徐安令【摘要】正则表达式本质上来说是一项规则,而这种规则主要用来对一类字符串的共性进行描述,正则表达式的发展,已形成了一种从字符的集合中来寻找某个指定的字符串的程序工具.它具有既简洁又结构化的优点,近年来,正则表达式已经从一个模糊的数概念,发展成了一项重要的,在各个领域都有重大作用,能解决很多实际问题的计算机功能,本文主要讲述了正则表达式的概念,意义及实际应用等问题,希望能有助于人们对正则表达有更客观的认识,并加深对它的研究.【期刊名称】《数字技术与应用》【年(卷),期】2016(000)005【总页数】1页(P68)【关键词】正则表达式;概念;背景与意义;应用【作者】徐安令【作者单位】德宏师范高等专科学校云南德宏 678400【正文语种】中文【中图分类】TP393正则表达式本质上来说是某种遵循一定规则的表达式,同时也可以认为是一种程序语言,这种语言能对文字进行较为模糊的匹配。

具体来说就是,正则表达式可以用某些特殊符号代表一组字符和指定对其匹配的次数,当然,前提是这种字符必须具有某种特征,此时,具有这些特殊符号的文本就不再用以表示特定文本的内容了,反而是变成了文本模式,这种文本模式就可以对所有符合此模式的一切文本串进行匹配。

随着计算机网络的发展,网络已经成为了人们获取信息的重要手段,并且更好地实现了资源与信息的共享,然而网络信息仍然有很多不足,如存在很多诸如数据语义信息不清晰、模式等不明确、表现形式单一、信息利用率较为低下的问题,而这些问题都可以通过应用正则表达式来解决。

正则表达式本身就是一种程序语言,能对文字进行较为模糊的匹配,通过对文字的匹配提取等,网络信息的抽取也能变得容易起来。

根据定制的模板,从文本中把特定的信息抽取出来,使这些数据相对结构化,并且还要分析和整理这些信息内容,以上操作即为信息抽取的过程。

这种信息抽取的作用类似于信息检索,但其比信息检索更为前沿和新颖,近几年已经成为了研究网络信息处理的热点问题,而正则表达式,在抽取信息、搜集数据等各个方面都发挥着重要的作用,基于其是对一类字符串进行共性描述的规则,它更是一种处理字符串并且寻找特定字符串必不可少的工具。

中医古籍文献研究数据标引软件系统开发方案2008年

中医古籍文献研究数据标引软件系统开发方案2008年

中医古籍文献研究数据标引软件系统开发方案(2008年)目录1目前现状与待解决问题 (2)1.1叙词表加工系统目前现状 (2)1.2对叙词表加工系统的特殊需求 (2)1.3元数据标引系统目前现状 (2)1.4现有元数据标引系统存在的问题 (2)2整体需求分析 (2)3整体设计 (3)3.1数据加工流程 (3)3.2元数据标引系统 (3)3.2.1书目管理 (4)3.2.2用户管理 (4)3.2.3元数据模板配置 (4)3.2.4元数据模板与叙词表的映射规则配置 (5)3.2.5数据标引 (5)3.2.6工作流管理 (6)3.2.7日志系统 (6)3.2.8统计报表 (6)4技术实现 (7)4.1客户端配置 (7)4.2Web服务器配置 (7)4.3数据库服务器配置 (8)1目前现状与待解决问题1.1叙词表加工系统目前现状目前中医古籍文献研究拥有一定数量的叙词表数据,由于缺乏比较理想的叙词表加工系统,现有数据主要为文本文件格式。

这些文本文件格式较为规范,便于计算机程序导入。

1.2对叙词表加工系统的特殊需求由于中医叙词表的特点,使两条概念能够相关的语义环境非常重要,即两条概念能够相关,一定是基于一定的语义环境。

例如,在某个方剂里,在主治某种病症时,两种中药产生一定关系。

然而,同样是这两种中药,在另一个方剂里, 或在主治另一个病症时,就可能不产生关系,或产生完全不同的关系。

因此,对于中医叙词表,如果抛开一定的语义环境而谈两个概念之间关系,是没有实际意义的。

那么,对于叙词表加工系统而言,要解决的问题就是在用户建立概念间的关系时,如何能让叙词表加工人员准确、完整地描述产生这种关系的语义环境。

并且,系统在展现概念间的关系时如何清晰的展示这种关系所存在的语义环境。

1.3元数据标引系统目前现状目前文献研究已拥有一套元数据标引系统,用于标引中医古籍文献,此系统为传统单用户应用程序,以桌面数据库MS Access为数据的存贮介质。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

正则表达式在中医文献研究中的应用初探(作者:___________单位: ___________邮编: ___________)作者:王志飞,李晓君,郭霞珍,张德政【关键词】正则表达式;中医文献;自然语言理解中医文献浩如烟海,《中国中医古籍总目》收录1949年以前的中医古籍,总数达到13 455种[1];解放后,随着中医学的发展,中医文献资料更是日渐增多。

庞大规模的资料,为中医文献研究提供了丰富的内容,但同时也决定了其研究任务的繁重性。

面对这种情况,只有寻找一种能够从海量文献中抽取有用信息的辅助工具,将文献研究化繁为简,才能有效地扩大文献利用的规模,从而提高研究结果的精确度和可信度。

笔者实践发现,正则表达式正是这样一种可以方便地从海量中医文献中抽取特定信息的工具,并且具有简单易学的特点,实为中医文献研究不可多得的辅助工具。

故撰文于此,以飨同道。

1 正则表达式正则表达式(Regular Expression)是广泛应用于信息技术领域的文本处理工具,具有强大、便捷、高效的特点。

正则表达式是一种十分简单的程序语言,专门用以表示模式,即文本构成的某种规则。

在此基础上,配合特定工具所提供的支持,正则表达式可以对文本进行添加、删除、分离、叠加、插入、修整等操作[2]。

“模式”是一类事物的共有特征,而正则表达式的强大之处正是在于其对模式的表达。

“模式”是人们思考问题和描述事物时不可或缺的逻辑工具,只有对某一类事物有了深入的认识,概括出其共有的特征,即掌握了该事物的模式,才有可能构建概念,并在概念的基础上通过逻辑来进行推理和判断。

可以说“模式”是思考和描述的基础,因此它于自然语言中无所不在。

事物的模式,在自然语言中往往通过特定的语言模式表示出来。

比如“××是××”,即通过“名词1+是+名词2”的语言模式来表示“名词2”对“名词1”属性的说明。

一般而言,文字表达比语言更偏重于对模式的应用,因此文本往往表现出更为规范和密集的模式,更有利于发挥正则表达式的作用,而这一特点,在中医文本中表现得尤为突出。

大多数程序语言都支持正则表达式,在编程中调用正则表达式来解决问题可以最大限度地发挥正则表达式的威力。

同时,由于正则表达式的强大功能,人们亦开发出多种正则表达式的专用工具软件,因此,即使不会编写程序,学习了正则表达式后也同样可以运用这些工具来进行文本处理。

常用的正则表达式工具有REGEX、RegexBuddy、The Regulator等,本文举例所使用的工具为RegexBuddy 3.0.3。

2 中医文献特点及正则表达式的应用与一般的自然语言文本不同,作为科技文献的一种,虽然未做明确规定,但是中医文献自然而然地遵循了一种半结构化的文本组织方式,即更多地运用“模式”来表达语意。

这就使得文本中的有用信息可以通过某种模式被唯一地辨识出来。

例如医案中常以“姓+左(右)”的模式来表示一个患者及其姓名、性别,如“张左”,表示一个姓张的男性患者;以“部位+描述”来表示一个症状,如“头痛”、“腹胀”,其中“部位”又可以省略,如“乏力”等;以脏、腑、气、血、津液与八纲相互组合表示一个证型,如“肾阳虚”;以“词+数词+量词”的模式表示处方用药,如“熟地八两”等等。

不仅如此,在这些模式之外,医案中还常加标示词,形成模式嵌套,以进一步明确语意,如“辨证:”标示紧随其后的文字表示证型,“治以”标示其后是治法,“处方:”表示其后为用药。

中医文献资料的这些特点,为正则表达式的应用提供了条件。

因此,编制合适的正则表达式,可以一次性提取大量文献中的有用信息,从而大大节省文献研究的人力,提高结果的准确度和可信度。

3 正则表达式应用举例中国方剂数据库是由中国中医科学院研制的大型文献型数据库,共收录了来自710余种古籍及现代文献中的古今方剂84 464首。

该数据库提供网络查询服务,是中医文献研究中重要的信息源。

本文就以提取该库中便秘方剂的药名为例,讨论正则表达式在中医文献研究中的应用。

查询中国方剂数据库,关键词为“便秘”,查询字段为“主治”,返回598首方剂。

用“套录”的方法批量下载方剂,将所有内容粘贴在一个文本文档中。

其文本结构如下。

NO.6[方名] 降胃汤[处方来源] 《产孕集》卷下[药物组成] 人参1钱,陈皮1钱[主治] 津亏或误发汗,阳泄于外,胃气下降,便秘不通[用法用量] 作1服要研究这样598首方剂中的中药用药规律,就必须获得方剂中的中药信息,而提取药名是一切工作的基础。

如何提取药名信息呢?一个方法是建立中药词库,通过程序来提取。

但是建设词库是一个浩大的工程,且无法保证词库可以覆盖文献中的全部药名;同时,这种方法亦要求操作者有一定的编程能力。

其实,上述文本资料是典型的半结构化文本,文字结构具有很强的规律性,提取中药完全可以通过模式匹配来完成。

事实上,只须依次使用3个正则表达式就可以提取文本中的所有药名信息。

3.1 提取药物所在行药物所在行的文本结构是“[药物组成]+空格+空格+药物及剂量”,其他行均不具有此种结构,也就是说,“[药物组成]+空格+空格”标示此段落中接下来的内容是药物、炮制及其剂量;而所有药物所在的行,亦必然是以“[药物组成]+空格+空格”的标示开始的。

因此建立正则表达式为:“[药物组成].*”。

其中“[药物组成] ”作为标示词表示“[药物组成]+空格+空格”。

而“.*”表示一段文本,这段文本可以是任意长度;其中“.”在正则表达式中表示任意字符,其后的“*”则表示其前面的任意字符可以有任意多个(包括0个)。

在RegexBuddy中以正则表达式匹配文本,返回的文本结构显示,已成功提取了药物所在的行,举例如下。

[药物组成] 秦艽2~3钱,胡麻(炒,研)3~5钱,鲜首乌5钱至1两,生地3~5钱,松子仁5钱至2两(研烂调服),牛乳1杯(或牛酥1~2两),梨汁1杯。

[药物组成] 川芎1钱半,当归2钱,炙草5分,桃仁10个。

[药物组成] 人参4两,白术4两,枳实1两半,当归3两,白芍3两,抚芎1两,麦冬2两,柏子仁1两。

[药物组成] 前胡(去芦头)2两,大黄(锉,炒)1两1分,黄芩(去黑心)1两1分,木通(锉)1两1分,麻子仁1两1分,芍药1两1分。

[药物组成] 大黄半两,桔梗1钱,枳壳1钱,前胡1钱,杏仁1钱,葛根2钱。

如果使用文本编辑器的“替换”功能去掉标示词“[药物组成]”(当然亦可通过正则表达式完成),这时文本就只含有药物、炮制及剂量信息。

3.2 去掉药物中的炮制信息炮制信息有更为明显的标志,就是用小括号括起来的部分。

因此,可以用正则表达式“(.*·)”来匹配,从而将文本中匹配的信息即炮制信息去掉,返回的文本结构如下。

秦艽2~3钱,胡麻3~5钱,鲜首乌5钱至1两,生地3~5钱,松子仁5钱至2两,牛乳1杯,梨汁1杯。

川芎1钱半,当归2钱,炙草5分,桃仁10个。

人参4两,白术4两,枳实1两半,当归3两,白芍3两,抚芎1两,麦冬2两,柏子仁1两。

前胡2两,大黄1两1分,黄芩1两1分,木通1两1分,麻子仁1两1分,芍药1两1分。

大黄半两,桔梗1钱,枳壳1钱,前胡1钱,杏仁1钱,葛根2钱。

3.3 去掉药物的剂量药物剂量的表现形式概括起来大概有以下几种:①“数量+单位”,如“1两”;②“数量+连词符+数量+单位”,如“2-3钱”;③“数量+波纹线+数量+单位”,如“2~3钱”;④“数量+至(或到)+数量+单位”如“4至5钱”、“四到五钱”;⑤“数量+单位+数量+单位”,如“1钱5分”;⑥“数量+单位+半(或五)”,如“1两半”、“一两五”;⑦“数量+单位+至(或到)+数量+单位”,如“5钱至2两”;⑧“单位+数量”,如“两半”。

综合以上8种形式,以“[0-9]|半|一|二|三|四|五|六|七|八|九|十”匹配数量,“酒(杯|盏)|钱匕|两|斤|钱|匙|个|厘|分|斗|茎|撮|升|寸|粒|只|枚|g|G|条|团|把|尾|石|挺|梃|片|具|握|合|字|尺|盏|铢|杯|块|根|支|束|匕|株|张|颗|对|朵|帖|石|丸|碗|副|瓢|克|匣|滴|钟|铤”匹配单位,建立正则表达式为:“(([0-9]|半|一|二|三|四|五|六|七|八|九|十)+(两|斤|钱|个|厘|分|斗|升|粒|只|枚|g|G|合|颗|克)(至|到)([0-9]|半|一|二|三|四|五|六|七|八|九|十)+(两|斤|钱|个|厘|分|斗|升|粒|只|枚|g|G|合|颗|克))|(([0-9]|半|一|二|三|四|五|六|七|八|九|十)*[-~.]*([0-9]|半|一|二|三|四|五|六|七|八|九|十|多)+(小|大)*(酒(杯|盏)|钱匕|两|斤|钱|匙|个|厘|分|斗|茎|撮|升|寸|粒|只|枚|g|G|条|团|把|尾|石|挺|梃|片|具|握|合|字|尺|盏|铢|杯|块|根|支|束|匕|株|张|颗|对|朵|帖|石|丸|碗|副|瓢|克|匣|滴|钟|铤)(半|一|二|三|四|五|六|七|八|九|十)*(两|斤|钱|个|厘|分|斗)*)”。

去掉剂量信息后,返回的文本结构如下。

秦艽,胡麻,鲜首乌,生地,松子仁,牛乳,梨汁。

川芎,当归,炙草,桃仁。

人参,白术,枳实,当归,白芍,抚芎,麦冬,柏子仁。

前胡,大黄,黄芩,木通,麻子仁,芍药。

大黄,桔梗,枳壳,前胡,杏仁,葛根。

这样,就完成了中药名的提取。

之后的工作,只须简单操作就可完成多种分析。

比如结合中药同义词表,可获知此598首方剂中共用药408种,其中用药次数最多的是大黄,共出现290次,支持度为48.50%,即将近一半的便秘方剂中使用大黄。

支持度大于10.00%的药物有17种,排名前5的分别为大黄、甘草、当归、黄芩、枳壳。

4 小结综上所述,正则表达式是一种便捷、高效、功能强大的文本处理工具,应用十分广泛;而中医文本具有结构化强的特点,因此十分适宜将正则表达式作为一种工具引入中医文献研究。

深入挖掘正则表达式在中医文献研究中的应用,对于大幅度减轻文献研究的工作量具有重要意义。

【参考文献】[1] 薛清录.中国中医古籍总目[M].上海:上海辞书出版社,2007.[2] Jeffrey EF Friedl.余晟,译.精通正则表达式[M].第3版.北京:电子工业出版社,2008.1.。

相关文档
最新文档