大数据处理技术平台

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目录

1总体设计方案 (7)

1.1项目概述 (7)

1.2需求分析 (9)

1.2.1总体需求 (9)

1.2.2需求描述 (11)

1.2.3集成实施需求 (27)

1.2.4技术支持、售后服务和培训需求 (28)

1.3总体设计 (32)

1.3.1总体设计目标 (32)

1.3.2建设原则 (32)

1.3.3总体架构设计 (33)

1.3.4技术架构设计 (35)

1.3.5网络拓扑设计 (36)

1.3.6系统非功能性设计 (37)

1.3.7系统接口设计 (40)

1.3.8技术路线和关键技术 (46)

1.3.9软件套数 (52)

1.3.10硬件选型参考 (52)

2数据预处理系统实施方案 (54)

2.1数据接入 (54)

2.1.1数据接收 (55)

2.1.2数据过滤 (56)

2.1.3数据去重 (57)

2.1.4数据报告 (58)

2.2数据文本处理 (58)

2.2.1自动分词 (58)

2.2.2关键词提取 (59)

2.2.3文本摘要 (60)

2.2.4命名实体识别 (60)

2.2.8短语检索 (63)

2.2.9MD5值计算 (64)

2.2.10文本内容抽取 (65)

2.3数据入库 (65)

3海量数据存储检索系统实施方案 (68)

3.1存储平台特点 (68)

3.2大数据存储总体架构 (72)

3.3数据存储 (75)

3.3.1易扩展性 (75)

3.3.2大规模稀疏数据存储 (75)

3.3.3海量数据压缩、集成和持久化 (76)

3.3.4共享存储和分布式并行处理 (76)

3.3.5数据访问高效 (76)

3.3.6大流量支持 (77)

3.3.7多源数据存储 (78)

3.3.8数据校验 (78)

3.3.9API及可视化管理 (79)

3.4数据索引 (83)

3.4.1灵活的切词方式 (83)

3.4.2多种索引方式 (83)

3.4.3索引智能合并 (84)

3.4.4索引自检与容错 (84)

3.5检索功能 (84)

3.5.1多库联合检索 (84)

3.5.2中英文检索 (85)

3.5.3多种检索方式 (89)

3.5.4检索结果统计 (101)

3.6性能指标 (103)

3.7.1系统监控 (106)

3.7.2系统预警 (108)

3.7.3系统日志 (108)

3.7.4系统配置 (110)

4数据智能挖掘分析系统实施方案 (111)

4.1分布式架构设计 (111)

4.2分词、词性标注和新词发现 (112)

4.2.1自动分词 (112)

4.2.2词性标注 (114)

4.2.3新词发现 (120)

4.2.4词库管理 (121)

4.3命名实体识别及实体关系抽取 (121)

4.3.1命名实体识别 (121)

4.3.2实体关系抽取 (126)

4.4词关联信息提取 (129)

4.5关键词提取 (130)

4.5.1实现原理 (130)

4.5.2主题词标引的工作流程 (131)

4.5.3功能概述 (132)

4.6文本摘要 (133)

4.6.1实现原理 (133)

4.6.2自动摘要的工作流程 (135)

4.6.3功能概述 (136)

4.7文本聚类 (137)

4.7.1实现原理 (137)

4.7.2自动聚类的工作流程 (138)

4.7.3功能概述 (139)

4.8文本分类 (140)

4.8.1基于内容的文本自动分类 (140)

4.8.2基于规则的文本分类 (142)

4.8.3自动分类的工作流程 (142)

4.8.4功能概述 (143)

4.8.5性能指标 (143)

4.9褒贬分析 (144)

4.9.1实现原理 (144)

4.9.2主要流程 (146)

4.9.3功能概述 (146)

4.10话题检测与追踪 (147)

4.11热点信息发现 (147)

4.12相似内容推荐 (148)

4.12.1实现原理 (148)

4.12.2相似文本检索的工作流程 (149)

4.12.3功能概述 (150)

4.12.4性能指标 (150)

4.13系统监控 (151)

5接口实施方案................................................................................................... 错误!未定义书签。

5.1数据预处理系统接口设计....................................................................... 错误!未定义书签。

5.1.1数据接入接口设计 .......................................................................... 错误!未定义书签。

5.1.2数据文本预处理接口设计 .............................................................. 错误!未定义书签。

5.2海量数据存储检索系统接口设计........................................................... 错误!未定义书签。

5.3数据智能挖掘分析系统接口设计........................................................... 错误!未定义书签。6关键性能........................................................................................................... 错误!未定义书签。

6.1数据预处理系统关键性能....................................................................... 错误!未定义书签。

6.2海量数据存储检索系统关键性能........................................................... 错误!未定义书签。

6.2.1存储规模 .......................................................................................... 错误!未定义书签。

6.2.2创建索引性能 .................................................................................. 错误!未定义书签。

6.2.3更新索引性能 .................................................................................. 错误!未定义书签。

6.2.4百亿条数据妙级响应 ...................................................................... 错误!未定义书签。

相关文档
最新文档