(完整word版)大数据分析系统需求

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据分析系统需求

天津绍闻迪康科技咨询有限公司

2018/5/28 仅为需求基本框架,需要根据贵公司产品、技术路线具体面议。

目录

一、系统定位 (2)

二、功能模块 (3)

2.1爬虫系统 (3)

2.1.1数据源 (3)

2.1.2爬虫系统功能 (3)

2.2数据处理、存储、计算系统 (4)

2.2.1数据处理模块 (4)

2.2.2数据存储模块 (4)

2.2.3数据计算模块 (5)

2.3数据分析、可视化系统 (9)

2.4对外接口 (10)

2.4.1会员制体系 (10)

2.4.2其他 (10)

2.5其他 (11)

2.5.1数据痕迹 (11)

2.5.2信息安全 (11)

2.5.3注意事项 (11)

1、系统定位

从数据接入到数据应用,我们需要【大数据分析系统】包括几大功能模块:

(1)爬虫系统

(2)数据处理、存储、计算系统

(3)数据人工智能分析、可视化系统

(4)外部接口

其中第(3)模块是核心,需要结合我们公司业务方向建设相关的数学模型,进行人工智能的自动分析。

爬虫系统可以从指定网站自动的进行信息的抓取,对数据库中的已有词条进行更新或新建,或者从全站按照关键词抓取信息,更新数据库中词条,爬虫搜集到的数据也需要存储到系统中。

数据库系统可以将公司现有资料分库录入系统,生成词条,词条之间相互关联,可以实现跳转,可视化查看;存储爬虫得到的数据。数据库中的词条或者数据源大多是国外的,例如美国,日本等,涉及到的人物或者其它词条会有多种语言的表达。

系统可以结合爬虫的数据、库中本来的数据按照一定内容生成词条自身的时间轴,多库之间词条的的关系图。系统需要与外部互联的接口,包括微信平台,天蝎系统,邮件营销平台,调查问卷分析平台。

2、功能模块

2.1爬虫系统

2.1.1数据源

1)网站,可能是信息变化不大的静态网站,也可能是信息在实时更新的动态网站,例如博客或者论坛。网站库不定时更新。

2)数据库,需要模拟登陆,从一些数据库中抓取数据,例如论文或者专利数据库等,可能是从国内或者国外的数据库网站中。

3)自媒体,例如Facebook,twitter等,需要从中抓取一些个人信息,例如一个人的邮箱,可能需要与公司已有的天蝎系统结合,从天蝎系统已经分析出的个人信息Excel中抓取所需信息。(可具体商议)

2.1.2爬虫系统功能

1)爬虫系统需要从指定数据源网站中实时抓取信息,通过实体抽取,和数据库中的词条进行关联,自动更新数据库中已有的词条。

2)可以设定关键词,从全站以及所有数据源中抓取信息,进行数据处理后,按照词条准确匹配,存入数据库;

3)可以按照用户指定的关键词在指定的网站中抓取信息,生成结果。

4)爬虫得到的信息生成的报告等可以进行导出。

数据处理在更新或增加词条时需要将抓取到的信息与词条

中的属性进行匹配,将对应的信息录入。可以是实时更新,自动匹配更新;可以是非实时的,有一定的人工干预。由于库中数据有一大部分是国外的,有一些属性的显示方式并不唯一,需要有一定的匹配规则。

2.2数据处理、存储、计算系统

2.2.1数据处理模块

系统需要可以对导入系统的文档等数据和爬虫得到的数据进

行数据的预处理,进行分词切词,实体抽取(可能为中英日文)。需要可以自动增加新词条,对比现有词条实现词条的实时更新;或者也可以非实时更新可以有一定的人工干预,进行词条的半自动化增长。处理过程需要考虑处理的规则和词条匹配的规则。

2.2.2数据存储模块

存储在数据库中的数据分为几部分:

1)结构化数据

分词条存储在数据库中,词条分为:调研人物库,专

家库,论文库,专利库,领域库,专题库,快讯库。

还需要存储词条的一些非业务属性:词条的负责人,

参与人,时间周期,存储词条本身的时间轴,上传的

联系痕迹等。

2)非结构化存储

爬虫来的网页,文档(PDF、Word、Excel、PPT、图

片、视频)图片,视频。

2.2.3数据计算模块

数据库系统含有以下词条库:

(1)调研人物库:生成人物简历,信息包括:

∙照片,姓名。

∙基本信息:单位,语言,国别,生日,所在地,曾住地。

∙联系方式:电话传真邮箱即时通讯方式

∙教育经历:时间学习单位专业学历/学位

∙工作经历:时间工作单位职位备注

∙官方网站:官方人物数据库社会人物数据库

∙学术情况:研究领域论文情况:包括引用次数的表格和具体论文。专利情况编写书籍参与会议表格所受奖励表格∙合作项目:次数跨度涉及单位具体合作事件

∙社会活动:媒体采访政治活动来华交流

∙国内外自媒体:在国外社交网站上的交友列表

∙人脉关系:总结(共多少人等)姓名、职位的表格家庭情况

∙调研总结及合作建议:调研总结合作建议

∙原始信息来源网站

∙原始文档

(2)专家库:生成专家简历,包括:

∙照片,姓名

∙基本信息:国籍出生年月出生地语言种族

∙联系方式:电话邮箱

∙教育情况

∙工作情况

∙合作情况

∙所属学会、协会或团体

∙其他信息:研究领域获奖头衔

∙原始文档

(3)领域库:有一定的分类,信息包括:

∙从事研究相关领域的人员信息:包括姓名,所在地,毕业院校,单位等

∙从事相关行业的公司、机构信息:分国别进行公司介绍包括:名称,类型,地址,联系方式等

∙本领域的研究成果等

∙领域相关的会议,事件等信息:会议举办时间,主要参与人

相关文档
最新文档