文本挖掘软件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据清理
• 高质量的数据分析结果首先取决于数据的准确性与完整性 • 标引的不一致 • 输入的错误 • 合并同义词近义词 • 文献著者或发明人的不同写法 • 科研机构或专利授权人的不同表达方式 • TDA软件内部设有多个叙词表,为您提供快速的自动数据清理
的功能,只需点击一个按钮,数据整理工作即可自动完成。
Thomson Data Analyzer
Critical Insight into Competitive and Technical Intelligence
TDA简介
• Thomson Data Analyzer (TDA),是一个具有强 大分析功能的文本挖掘软件,可以对文本数据进行 多角度的数据挖掘和可视化的全景分析。
• TDA能够帮助您从大量的专利文献或科技文献中发现 竞争情报和技术情报,为洞察科学技术的发展趋势、 发现行业出现的新兴技术、寻找合作伙伴,确定研 究战略和发展方向提供有价值的依据。
• TDA在数据的导入,数据的清理,数据的分析,和分 析结果的报道方面都具有独特的功能。
TDA数据导入
结构化的数据 不同平台
分析报告
• TDA帮助您快速生成各种报告,为决策者更快做出更好的决策 提供依据。只需点击按钮即可生成公司报告、公司间的比较、 和对某一技术的深入分析。
• Technology Report(分别以技术/机构/发明人为参照点考量新出 现的/消失的/量最大的/独特的技术分布报告)
• Top Assignees ( DWPI only,前25位专利权属人Derwent 分类/ 发明人分析报告)
Import Engine Editor
Original Patents Delphion
MS Excel
DWPI & PCI
Web of Knowledge
STN Dialቤተ መጻሕፍቲ ባይዱg
Aureka Thomson Innovation PatentWeb
Web of Science
INSPEC
数据管理
• 包括数据特性和数据统计信息 ( Dataset Properties, field statistics)
案例: 3G通信行业专利分析 (The 3rd Generation )
• 3G,全称为3rd Generation,中文含义就是指第三代数字通信。
• 1995年问世的第一代模拟制式手机(1G)只能进行语音通话;1996到1997年出 现的第二代GSM、TDMA等数字制式手机(2G)便增加了接收数据的功能,如接 受电子邮件或网页;第三代与前两代的主要区别是在传输声音和数据的速度上的 提升,它能够在全球范围内更好地实现无缝漫游,并处理图像、音乐、视频流等 多种媒体形式,提供包括网页浏览、电话会议、电子商务等多种信息服务,同时 也要考虑与已有第二代系统的良好兼容性。为了提供这种服务,无线网络必须能 够支持不同的数据传输速度,也就是说在室内、室外和行车的环境中能够分别支 持至少2Mbps(兆比特/每秒)、384kbps(千比特/每秒)以及144kbps的传输 速度。(此数值根据网络环境会发生变化)。
表的独特性。例如对比分析两个科研机构或两个竞争对手。
• Matrices: 通过Co-occurance矩阵,Auto-correlation矩阵, Cross-correlation矩阵, 发现隐含的发展趋势或相关性。
• Maps: 通过数据图谱将数据分析的结果可视化,例如将主因素 分析、相关性分析的结果以Map的方式表达出来,揭示机构间, 科研人员间或各类技术之间的关系。
• Trend Analysis (DWPI only,从技术、市场、专利权人的角度, 分析Derwent分类/Derwent手工代码/IPC号对应年份出现的新旧 比例,显示技术发展趋势)
提纲
• Thomson Data Analyzer概况 • 数据导入与数据管理 • 数据清理/数据结构化 • 数据分析 • 生成报告
• 字段的更名以及增加删除等 (Rename/copy/delete/merge fields)
• 将当前的数据集拆分 (Create Sub-dataset)
• 文件的合并 ( Merging files) (Data Fusion) (Record Fusion)
• 记录的去重与合并 (Dealing with duplicate)
• Detailed Description (Abstract-DWPI Detailed Desc/DTD): 当在Novelty字段无法 总结发明主要的权利主张时,摘要中会出现此字段。
• Activity (Abstract-DWPI Activity/ACT): 用于描述生物体或者化合物的生物活性
Manual Code、NLP words、 • 热点技术(时间分布、地区分布、专利权人分布) • 高影响力专利
检索相关专利——分析数据源的获取
数据下载
数据导入
Novelty:描述发明的独特性 专利家族
DWPI Abstract 的价值
• Novelty (Abstract-DWPI Novelty/NOV): 描述发明的独特性.
• 用户还可建立自己的叙词表,对著者/发明人、科研机构/专利 申请人/专利授权人、国际专利分类号、等字段加以清理。
数据分析
• 有效的分析可将无序的数据转化为高附加值的情报 • List: 快速排序分析各个字段, 生成各种图表。 • List comparison: 对比任何两个列表,揭示其共性或发现某列
• Mechanism (Abstract-DWPI Mechanism/MEC): 描述化合物或者生物体的生物机 理.
总体技术发展趋势宏观分析
• 技术领域内重要的专利权人 (专利权人名称) • 地区覆盖范围 (国家、地区) • 创新性活动进展 – 时间序列分析 (优先权年,最近15年) • 排名靠前的专利申请者的地区分布 (Top30) • 排名靠前的专利申请者其专利申请活动的时间分布(最近15年) • 技术发展趋势(时间分布、地区分布、专利权人分布)(
相关文档
最新文档