XX学院全球信息采集与大数据分析科研平台采购需求

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

XX学院全球信息采集与大数据分析科研平台采购需求
一、采购清单
二、采购内容
(一)多语种文献资料库
1.英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语8个语种文献资料库,包括数据汇入、数据共享、数据查询、小语种翻译、账号权限管理等主要模块,各模块功能如下:
2.数据汇入:采集数据汇入、用户资料编辑、上传;
3.数据共享:数据展示、查看、取用;
4.数据查询:搜索功能、主题分类;
5.账号权限管理:账号管理、角色权限、用户分组管理、登录控制、账号注册。

(一)外文网站的数据抓取、清洗和文本分析端口,全网搜索共1项,服务期2年。

1.采集内容
使用爬虫技术,采集范围包括800个外文网站(外文网站目录由采购人提供),采集内容包括文章标题、时间、作者、正文、链接,采集频率为每天采集一次,数据每24小时更新,数据存储在本地,数据接入资料库。

中标方须根据数据采集要求,在定向800个网站进行数据收集,使用语言包括英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语,并将所采集数据进行数字化转化,同时确保数据的真实性、完整性和合法性。

2.词语分析
根据抓取的数据进行每周关键词、热词分析提示。

3.海外内容搜索
接入全网搜索入口、800个外文网站全部内容搜索入口,提供线路供搜索海外内容,外文网站域名由后台限定。

4.数据抓取要求
(1)反爬机制要求
为确保网络爬虫系统能够高效稳定地采集所需信息,需要满足以下反爬机制:1)使用代理IP
网络爬虫应具备代理IP功能,代理IP应用于规避目标网站的IP封锁等限制,确保顺利进行数据采集。

2)模拟登录
网络爬虫系统应支持模拟登录功能,实现自动化登录操作,并保证账号和密码的安全传输和存储。

3)分析网页源码
实现网页源码分析功能,通过使用浏览器自带的开发者工具等技术,提取难以采集的页面中的所需信息。

4)使用APl接口
在可能的情况下,应优先使用目标网站提供的API接口来获取所需信息。

(2)数据去重和增量更新要求
为保证数据的准确性和避免不必要的资源浪费,网络爬虫系统需要实现数据去重和增量更新功能。

将爬取过程中产生的URL进行存储,并确保URL的唯一性,免重复请求。

网络爬虫系统应对爬取到的每条数据进行唯一标识的制定,确保爬取的数据在持久化存储前进行去重,避免重复存储相同的数据。

(3)分布式等问题要求
网络爬虫系统需要支持分布式部署,以提高爬虫的效率、速度和可靠性。

采用分布式爬虫技术,将爬虫任务划分成多个子任务,提高爬虫的效率和稳定性。

(三)性能先进的翻译机
共4台。

拥有离线翻译、拍照翻译、语音速记、扬声器等功能,支持英语、德语、法语、阿拉伯语、西班牙语、俄语、口语、韩语8个语种,网络支持WiFi、蜂窝数据等方式。

(四)计算机辅助翻译软件系统
共1项。

1.支持语言数量
在线翻译定向外文网站搜集到的内容,支持英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语等70种语言。

2.文件格式
支持pdf∖doc∖docx∖xls∖xlsx∖txt∖ppt∖pptx共8种文件格式。

3.文档翻译
支持文本、文档翻译,自动识别源语言语种,支持OFFICE系列/PDF等多种文档格式翻译,翻译结果原格式、原译导出,支持30M以上文档大小。

4.翻译历史
用户翻译历史记录留存、自主管理,支持通过语言方向、文档名称等条件检索。

5.用户管理
授权用户登录后才可以使用翻译功能,翻译调用情况可以实时查看。

6.翻译页数
20万页(无时间周期限制,直至20万页用完为止)。

7.账号数量
1个主账号+100个子帐号+3条vip专属通道+5条普通通道。

(五)培训和售后服务
提供相关用户培训文档,培训形式、时间等根据招标人要求确定。

提供自终验合格之日起2年的质保,人员5*12小时响应。

三、安全服务要求
系统安全防护建设要按照国家关于信息系统安全管理有关要求及国家有关安全策略、法规、标准和管理要求进行,以风险评估和需求分析为基础,坚持适度安全、技术与管理并重、分级与多层保护和动态发展等原则,保证网络与信息安全和政府监管与服务的有效性。

安全系统建设内容包括信息安全管理规章制度、资源安全、应用安全、系统安全、网络安全等方面。

(一)安全合规要求
投标人设计开发系统的安全功能需满足国家法律要求、需要满足招标人的安全监管要求及网信系统安全标准,相关要求包括不限于以下:《中华人民共和国网络安全法》。

投标人承诺交付的系统在通过以上合规要求时提供技术支持;如果遇到因功能缺失导致无法满足合规要求时,应立即响应并对安全功能改进。

(二)安全管理要求
投标人应采取必要的措施和机制保证设计开发业务系统的安全性。

措施应包括不限于以下部分:
(1)设置安全专员;
(2)定期安全培训;
(3)定期安全自查与改进。

投标人承诺在项目实施过程中应遵循招标人制定的相关开发安全管理规范。

(三)漏洞规避要求
投标人应确保交付的成果不存在中高危漏洞和安全缺陷。

(1)不得存在高危漏洞包括不限于:
注入漏洞;
XSS跨站漏洞;
已公开的框架漏洞;
CSRF漏洞;
非法上传漏洞;
远程包含漏洞;
远程执行漏洞;
硬编码漏洞;
水平权限、垂直权限漏洞;
其他OWaSPtop10漏洞。

(2)不得存在安全设计缺陷包括不限于:
密码未加密或弱加密存储;
已公开的框架漏洞;
撞库攻击、密码破解遍历漏洞;
恶意注册漏洞;
验证码绕过;
短信、邮件接口轰炸漏洞;
伪随机;
重放漏洞;
敏感信息泄露;
取回密码绕过验证。

(3)投标人应采取必要的手段包含不限于:代码审计、黑盒扫描、人工渗透测试等方法对系统可能存在的漏洞和缺陷进行发现并修复。

(4)投标人承诺交付给买方的系统已经经过全面的安全测试并已经修复。

(四)信息保密要求
1.投标人须提供相应的保密管理方案,从技术和管理上保证本项目技术和业务信息的保密性。

2.保密范围主要包括:项目涉及的合同、协议、设计、实施、服务等技术商务文件,图纸、沟通纪要以及项目涉及到的客户业务开展、结果等信息;投标人须具备完备的保密管理制度和监控机制,从文件产生、流转、归档各环节保证信息保密性。

3.保密方案满足《中华人民共和国保密法》、《中华人民共和国保守国家秘密法》、网信办保密管理的相关制度。

4.投标人在中标后需与客户签订保密协议。

(五)知识产权要求
在本项目过程中所产生的技术成果(包括项目中开发产生的个性化开发软件、技术诀窍、秘密信息、技术资料等)的知识产权、版权包括相关权益归采购人所有,中标人协助采购人办理知识产权,未经同意,不得将涉及知识产权的技术秘密透露给第三方。

(六)平台安全服务保障
1.中标人服务器系统每周对平台进行数据安全备份(包含源程序和数据库),以及根据采购人需求做服务器数据隔天回滚恢复工作;
5.中标人服务人员每月15日、30日检查平台运行页面显示等情况;
6.中标人技术人员每月检查平台前后台程序/数据库安全问题,确保采购人平台防篡改/暗链修复,防止挖矿脚本,防止反射型XSS/DOM型XSS攻击,防止SQL注入漏洞,敏感词汇进行检测,木马程序感染,博彩病毒入侵,确保采购人平台全年正常运营;
7.随着技术升级更新,中标人对采购人平台新出现的BUG和漏洞进行程序升级和漏洞修复工作;
5.中标人检测平台整体与互联网安全情况,给到采购人整体平台安全建议与配合事项。

(七)服务承诺落实的保障措施
服务质量保障系统基于项目任务管理系统建立,提供项目维护期间的每一项服务过程的跟踪,包括服务工单派发、故障现象、到场时间、故障诊断、故障排除、离场时间、满意度调查等内容,并针对各项目服务内容实施过程评价、回馈、
回访调查等。

四、技术要求
(一)技术
1、系统应采用B/S模式,前后端分离和微服务架构进行开发;
2、采用JaVa语言开发,符合J2EE规范;
3、数据库需采用关系型数据库,支持Oracle、MySql,支持千万级以上数据的复杂搜索和统计;
4、支持分布式部署,通过消息队列,集群管理,负载均衡等方式对关键数据的访问进行加速,保证系统的正常使用;
5、采用RBAC权限模型支持用户身份认证和访问控制,并对用户的关键数据进行加密,防止用户敏感信息泄露,系统需要采取防火墙保护和入侵检测等措施来保障系统的安全性。

6、系统的开发过程需要遵循软件开发生命周期(SDLC)的各个阶段,如需求分析、设计、编码、测试、部署和维护等,以确保系统的高质量和稳定性;
(二)性能
1.稳健性和快速性
(1)支持大于IoOO人并发用户;
(2)保证7X24小时运行,对于软件更新、加载时不影响正常业务;
(3)业务高峰时服务器内存不大于70%,CPU使用率不低于30%,不高于90%;
(4)简单页面操作响应速度小于1秒;平均延时小于3秒,最大延时不超过30秒,报表统计生成页面不超过15秒。

(5)支持负载均衡、可扩展性,可支持系统弹性扩缩容
(6)支持千万级数据的搜索与统计,对关键数据的搜索效率不得超过1秒。

2.兼容性
(1)能够最大限度地保证学校现有各种计算机软、硬件资源的可用性和连续性,以及学校未来应用的发展;
(2)客户端支持ChrOnIe、firefox等主流浏览器;
(3)前端服务器要求支持nginx、jetty,应用服务器支持各种主流应用服务器Tomcat等;
(4)服务器操作系统支持各种主流操作系统平台,如Windows^Linux、Unix等;
3.安全性
(1)与防止对程序技术的非授权的故意或者意外访问的能力有关的软件属性;
(2)采用多种备份机制保证数据库和文件系统不因服务器故障导致数据丢失;
(3)应用系统必须提供完善的审计功能,对系统关键数据的每一次增加、修改和删除都能记录相应的修改时间、操作人和修改前的数据记录;
(4)应用系统必须支持操作失效时间的配置。

当操作员在所配置的时间内没有对界面进行任何操作则该应用自动失效;
(5)数据备份:支持系统内高速度、大容量自动的数据存储、备份与恢复;实现增量备份,即只备份那些上次备份之后更改过的文件;
4.易用性
(1)包括统一的操作风格、简洁的用户界面、智能的操作提示等;
(2)对一些频繁使用的操作界面要考虑增强用户体验,如增加智能提示、自动完成等辅助功能;
(3)使用AjaX技术减少用户的等待或频繁刷屏等问题;
(4)用户登录后点击不超过3次,即可访问业务所需要的功能;
(5)普通用户的培训不超过2天、管理员培训不超过一周即可熟练掌握软
件的操作技能;
(三)技术开发方案
1.本项目拟采用的技术开发方案
2.基本开发架构。

相关文档
最新文档