传输与数据交换系统功能说明

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据传输与数据交换功能说明

1需求说明

兵器210应用系统中,完成七家成员单位和兵器中心的数据传输工作,七家成员单位的源数据包含有网络采集的数据,兵器中心包含的源数据有网络采集的数据和自身的媒体库数据两种。

2源数据连接说明

1)网络采集数据格式说明

数据库是oracle10G,

具体数据格式参考下面数据库:

IP:192.168.12.26

SID:testing

USER:bqsj

PAWD:bqsj

涉及到的表:

Classly -分类体系表

MutiFiles -视频和音频库

WebInfo -采集信息存储的主表

WebInfoContent -采集信息主表的关联表【详细内容表】

WebSiteRule -采集的站点信息表【采集站点说明】

2)兵器中心媒体库数据格式说明

详细数据格式请参考“附件目录”中媒体库资源。

兵器中心媒体库总共分为三个“三维模型库”、“国防科技图片库”,“视音频及二三维动画库”。

详细数据格式请参考:《资源库关系.doc》

3数据传输匹配说明

数据传输的源数据包含网络采集的“正文信息库”、“视频库”,和媒体资源库“三维模型库”、“国防科技图片库”、“视音频及二三维动画库”。下面将说明源数据与目标库的对应关系,及需要做的数据处理。

3.1网络采集的“正文信息库”

源数据库字段查询说明

数据处理说明

1.源数据CJ_CONTENT字段,对应的是正文内容,内容中可能包括图片标签

,需要将图片对应的src值,匹配成目标数据存储的实际路径。建议:可以通过配置文件,读取目标数据存储的实际路径。

2.源数据表“WEBINFO”中定义了一个字段“isFetch”抽取每一条数据后,

将该字段赋值为“1”,表示该条数据已经被获取。

3.目标数据中其它字段值的获取方式:

ID:自动生成,不重复主键;

COLLECT_UNIT:对应目标数据库中表SM_COLLECT_UNIT中字段UNIT_CODE值;

PAGES:默认值0;

PICTURE:存储每篇文章的图片路径,可以存储多个,每个数据之间用半角逗号“,”隔开;图片的路径从正文中解析标签获得,入库之前替换成目标数据的实际存储路径。

4.数据统计:要求没入库一条数据,更新当前数据库表中记录的数据总量。

1)表:DB_TYPE按国防分类体系记录数据总量。每插入一条数据对应分类号的“COUNT”字段增加1,分类号为一级分类号、二级分类号、三级分类号。

3)表:SM_DOCTYPE,按资源类型分库统计数据总量,更新字段DOC_CODE =“DB_SEARCH_WEBINFO”的memo1字段,每新增一条数据对应

MEMO1增加1;

4)表:DB_SEARCH_WEBINFO_DEFINETYPE更新采集自定义类型的数据量,插入的每条数据对应的DEFINE_NAME字段和表

DB_SEARCH_WEBINFO_DEFINETYPE中“DEFINE_NAME”对应,如果存

在相同类型名则直接将数据统计字段“COUNT”增加1,如果不存在

则建立对应的类型字段“COUNT”默认为0。

5)表:DB_SEARCH_WEBINFO_WEBNAME更新采集数据的来源网站名称,插入的每条数据对应的WEBNAME字段和表

DB_SEARCH_WEBINFO_WEBNAME中“WEBNAME”对应,如果存在相

同类型名则直接将数据统计字段“COUNT”增加1,如果不存在则建

立对应的类型字段“COUNT”默认为0。

5.数据去重:各成员单位的数据入检索中心库前,对数据进行查重。查重

规则:TITLE[标题] +WEBNAME[来源] +ABSTRACT[摘要] 相等时视为重复数据。*摘

要为自动摘要生成。自动摘要计算:计算是按句做的TFIDF,加权结论句和总括句,处理机制不依赖于语种。

3.2网络采集的“视频库”

源数据字段查询说明(*注意:源数据库字段就是中文的):

数据处理说明

1.源数据中“文件名”标识的是视频文件存储路径,在数据传输过程中需要将

源数据路径替换为目标数据的实际存储路径。建议:可以通过配置文件,读取目标数据存储的实际路径。

2.源数据表”MutiFiles”中定义了一个字段“isFetch”抽取每一条数据后,将该

字段赋值为“1”,表示该条数据已经被获取。

3.目标数据中其它字段值的获取方式:

ID:自动生成,不重复主键;

COLLECT_UNIT:对应目标数据库中表SM_COLLECT_UNIT中字段

UNIT_CODE值;

PAGES::默认值0。

4.数据统计:

表:SM_DOCTYPE,按资源类型分库统计数据总量,更新字段DOC_CODE=“DB_SEARCH_WEBVIDEO”的memo1字段,每新增一条数据对应MEMO1增加1。

5.数据查重:每入库一条数据检查数据的重复性,当数据”TITLE”完全匹配时,

视为重复数据。

6.DISPLAY_PICTURE:是将视频文件有图像的第一帧的图片做为显示图片,图片生成为固

定大小“256*197”,图片存储目录和视频文件相同,命名方式为“记录ID_display.jpg”。

7.FILEFORMAT:存储对应的文件格式,如:.flv。

3.3网络采集的“图片库”

将网络采集信息存储到DB_SEARCH_WEBINFO信息表时,将关联到的图片,逐条存储到DB_SEARCH_WEBIMAGE图片库。字段对应如下表:

相关文档
最新文档