数据采集1+x中级题库+答案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据采集1+x中级题库+答案
一、单选题(共63题,每题1分,共63分)
1.在vi编辑器的命令模式中敲击dd会()
A、复制当前光标所在行
B、复制2行
C、删除当前光标所在行
D、删除2行
正确答案:C
2.选取当前节点之前的所有同级节点是哪个节点?
A、preceding
B、self
C、preceding-sibling
D、parent
正确答案:C
3.Apache的主配置文件路径为()
A、httpd/conf/httpd.conf
B、/etc/httpd/conf/httpd.conf
C、conf/httpd.conf
D、conf
正确答案:B
4.Scrapy中,用于运行项目中的爬虫的命令是()。

A、runspider
B、genspider
C、crawl
D、以上全是
正确答案:C
5.正则表达式"[0-9.]表示的含义是"
A、匹配所有的数字,".中的任意一个
B、匹配所有的数字,"."中的任意多个
C、匹配所有的数字,""、"."中的任意一个
D、匹配所有的数字,""、"."中的任意多个
正确答案:A
6.“ab”+”c”*2 结果是:()
A、abcabc
B、abcc
C、abc2
D、ababcc
正确答案:B
7.启动Apache服务命令为()。

A、Service httpd start
B、Service start
C、Service Http start
D、Httpd start
正确答案:A
8.关于大数据的特征描述错误的是()
A、数据处理速度要相对高效
B、数据价值密度相对较高
C、对数据实时性要求相对较高
D、数据种类繁多
正确答案:B
9.关于python类,说法错误的是()
A、类的实例方法必须创建对象前才可以调用
B、类的静态属性可以用类名和对象来调用
C、类的实例方法必须创建对象后才可以调用
D、类的类方法可以用对象和类名来调用
正确答案:A
10.Python中,执行下列语句后的显示结果是什么?( )>>> from math import sqrt >>> print(sqrt(3)*sqrt(3) == 3)
A、False
B、3
C、sqrt(3)*sqrt(3)==3
D、True
正确答案:A
11.Shell变量的定义与赋值格式为()
A、变量名=值
B、$变量名=$值
C、变量名=$值
D、$变量名=值
正确答案:A
12.关于数据采集的描述不正确的是()
A、数据采集不在于掌握庞大的的数据信息,而在于对数据的智能处理,挖掘出有价值的信息
B、数据采集来源广泛,类型也丰富多样,很看重数据处理的高效性和实时性
C、数据采集,要注重数据质量和数据采集性能提升,为数据的准确分析打下基础
D、以上描述都不正确
正确答案:D
13.数据库操作中,delete from employee语句的作用是( )
A、删除当前数据库中整个employee表,包括表结构
B、删除当前数据库中employee表内的所有行
C、由于没有where子句,因此不删除任何数据
D、删除当前数据库中employee表内的当前行
正确答案:B
14.scrapy框架的运行流程中,()组件是scrapy框架的核心组件
A、DownLoader
B、Scrapy Engine
C、Scheduler
D、Spiders
正确答案:B
15.关于网络数据采集,描述正确的是()
A、可通过网络爬虫技术从公开网站或API获取数据信息
B、网页抓取过程中,会抓取所有满足条件的URL
C、爬取的数据经适当处理后进行存储
D、以上都正确
正确答案:D
16.下列扩展设备中,能有效的隔离网络广播风暴的是()。

A、中继器
B、路由器
C、集线器
D、交换机
正确答案:D
17.Apache服务器运行后会生成两个日志文件,访问日志是哪个文件()
A、access_logs
B、access_log
C、error_log
D、errors_log
正确答案:B
18.外链和反链的区别,说法正确的是()
A、两者含义相同,只是不同名字而已
B、外链是对于全站而言,反链只是指首页的链接
C、外链对SEO有帮助,反链没有任何帮助
D、外链是指外部的网站指向本网站,反链则是指向本页面的内部或外部链接
正确答案:C
19.一个网站的关键词密度保持在多少为最佳?
A、2%~8%
B、10%~15%
C、15%以上
D、顺其自然
正确答案:A
20.哪种方式可以将外部CSS样式文件嵌入网页()
A、<link type="text/css rel="stylesheet" src="外部样式表的文件名称">
B、<link type="text/css" rel="stylesheet" href="外部样式表的文件名称">
C、<link href="外部样式表的文件名称">
D、<link src="外部样式表的文件名称">
正确答案:B
21.Logstash主要由三部分组成,不包含下列哪一项()。

A、数据输入
B、处理数据
C、数据输出
D、数据存储
正确答案:D
22.Apache服务器运行后会生成两个日志文件,其中,()是记录Web服务器的所有访问活动的文件。

A、error_log(错误日志)
B、/usr/local/tomcat/logs
C、access_log(访问日志)
D、logs
正确答案:C
23.关于Python,算法是指()
A、对问题的精确描述
B、数学的计算公式
C、解决问题的精确步骤
D、程序设计语言的语句序列
正确答案:C
24.爬取网络数据时,以下哪个HTTP头的作用是将爬虫伪装成正常
的浏览器的()
A、User-Agent
B、Referer
C、Accept
D、Accept-Encoding
正确答案:A
25.在Linux环境下的Apache容器数据的采集中,启动apache服务代码是()
A、httpd
B、startup.bat
C、filebeat
D、logstash
正确答案:A
26.在Python中,关于全局变量和局部变量,以下选项中描述不正确的是()
A、全局变量不能和局部变量重名
B、全局变量一般没有缩进
C、全局变量在程序执行的全过程有效
D、一个程序中的变量包含两类:全局变量和局部变量
正确答案:A
27.关于 MongoDB 集合命名规则错误的是( )。

A、不能以“system.”开头,因为这是系统集合的保留前缀
B、集合名中不能含有保留字符 $
C、不能含是空字符串
D、集合名称最大值200 字节
正确答案:D
28.Python中,关于字符串下列说法错误的是()
A、在三引号字符串中可以包含换行回车等特殊字符
B、既可以用单引号,也可以用双引号创建字符串
C、字符串以标志字符串的结束
D、字符应该视为长度为1的字符串
正确答案:B
29.关于 Python 语言的特点,以下选项中描述错误的是
A、Python 语言是跨平台语言
B、Python 语言是脚本语言
C、Python 语言是多模型语言
D、Python 语言是非开源语言
正确答案:D
30.Android开发中,关于Service的描述不正确的是()
A、它是Android系统的四个重要的组件之一
B、Service是运行在后台,不和用户交互的应用组件
C、可以在Service中直接运行耗时较多或者阻塞的操作
D、Service和其他的应用组件一样,运行在进程的主线程中
正确答案:C
31.logstash默认的配置文件名称为()
A、logstash.yml
B、logstashConf.yml
C、logstash-conf.yml
D、logstash-config.yml
正确答案:A
32.正则表达式中,下列()表达式是求整数?
A、^-d+$
B、^-?d$
C、^-?d+
D、^-?d+$
正确答案:D
33.在xpath中,选取文档中当前节点的开始标签之前的所有节点是哪个轴()。

A、preceding-sibling
B、self
C、parent
D、preceding
正确答案:D
34.在计算机网络中,能将异种网络互连起来,实现不同网络协议相互转换的网络互连设备是( )
A、路由器
B、中继器
C、交换机
D、网关
正确答案:A
35.下面哪个HTTP状态码是搜索引擎返回的抓取正常的状态码
A、500
B、301
C、404
D、200
正确答案:D
36.网站进行友情链接多少个为适中
A、1~5个
B、20~30个
C、30~40个
D、40个以上
正确答案:B
37.下列哪种行为符合使用计算机的道德规范()。

A、利用网络歪曲他人私人信息
B、利用网络破坏他人计算机
C、利用网络公布他人隐私
D、删除自己计算机中不用的软件
正确答案:D
38.WWW主要使用什么语言
A、JSP
B、C
C、JAVA
D、HTML
正确答案:D
39.HBase依赖()提供消息通信机制。

A、Zookeeper
B、Chubby
C、RPC
D、Socket
正确答案:A
40.百度进行大更新的时间最多的是
A、每周三
B、每周一
C、每周二
D、每周四
正确答案:D
41.定义类如下class Hello(): def __init__() =name def showInfo(self) print() 下面代码能正常执行的 ( )
A、h = Helloh.showInfo()
B、h = Hello(‘admin’) 1.showInfo
C、h = Hello()h.showInfo(‘张三’)
D、h = Hello(‘张三’) h.showInfo()
正确答案:D
42.解决死锁的途径是()
A、设计预防死锁的方法,运行检测并恢复
B、不要共享资源,增加独占资源
C、立即关机再重新开机
D、立即关机排除故障
正确答案:A
43.针对域名,表示商业公司的一级域名是()
A、edu
B、net
C、org
D、com
正确答案:D
44.以下哪个HTTP头的作用是将爬虫伪装成正常的浏览器的
A、User-Agent
B、Referer
C、Accept
D、Accept-Encoding
正确答案:A
45.如何在文件中查找显示所有以"*打头的行?()"
A、find * file
B、grep ‘^*’ file
C、grep -n * file
D、wc -l * < file
正确答案:B
46.Apache服务器中检验配置是否有语法错误代码为()
A、apachectl configtest
B、apachectl configtest01
C、apachectl
D、test log
正确答案:A
47.在Windows操作系统中,()命令可以释放全部(或指定)适配器的由DHCP分配的动态IP地址。

A、ipconfig /renew
B、ipconfig /release
C、ipconfig /flushdns
D、ipconfig /all
48.哪个可以匹配正数、负数、和小数?
A、^(-|+)?d+(d+)?$
B、^(-|+)?d+(.d+)?
C、^(-|+)?d+(.d+)$
D、^(-|+)?d+(.d+)?$
正确答案:D
49.在Redhat Linux中一般使用( )命令查看网络接口状态。

A、ping
B、ipconfig
C、ifconfig
D、winipcfg
正确答案:C
50.test检查模式当中表示检查对象是否是个目录的选项是()
A、-e
B、-d
C、-a
D、-f
正确答案:B
51.构成TCP/IP模型的四个层次是
A、网络接口层、数据链路层、传输层、应用层
B、数据链路层、传输层、会话层、应用层
C、网络接口层、网际层、传输层、应用层
D、网络接口层、网络层、会话层、应用层
正确答案:C
52.以下语句错误的是
A、select sal*10.sal*deptno from emp;
B、select sal+1 from emp;
C、不能使用运算符号
D、select sal*10.deptno*10 from emp;
53.Apache中日志路径为()
A、/var/logs
B、/var/log/httpd
C、/log/logs
D、logs
正确答案:B
54.正则表达式“[a-z_]”表示的含义是()
A、取所有小写英文字母以及_中的任意多个。

B、取“a、-、z、_”中的任意多个。

C、取“a、-、z、_”中的任意一个。

D、取所有小写英文字母以及_中的任意一个。

正确答案:D
55.下列SQL语句中,能够实现“收回用户ZHAO对学生表(STUD)中学号(XH)的修改权”这一功能的是
A、REVOKE UPDATE(XH) ON TABLE FROM ZHAO
B、REVOKE UPDATE(XH) ON TABLE FROM PUBLIC
C、REVOKE UPDATE(XH) ON STUD FROM ZHAO
D、REVOKE UPDATE(XH) ON STUD FROM PUBLIC
正确答案:C
56.数据库系统的核心是()。

A、数据模型
B、数据库
C、数据库管理系统
D、软件工具
正确答案:C
57.以下选项中不是 Python 对文件的写操作方法的是()
A、writelines
B、write 和 seek
C、writetext
D、write
正确答案:C
58.以下可用于日志数据数据分析和存储的工具是()。

A、filebeat
B、Wireshark
C、八爪鱼采集器
D、logstash
正确答案:D
59.以下()命令可正确显示shell环境变量PATH的值
A、echo PATH
B、echo $PATH
C、cat PATH
D、cat $PATH
正确答案:B
60.Linux中,完成定期备份时,可以使用什么命令
A、schedule
B、crontab
C、chmod
D、chown
正确答案:B
61.OpenSSH服务进程默认使用的端口号是()。

A、24
B、21
C、25
D、22
正确答案:D
62.这些软件对计算机系统的资源进行控制、管理,并为用户使用和其他程序的运行提供服务。

以上描述符合()的定义?
A、操作系统
B、系统软件
C、应用软件
D、支撑软件
正确答案:A
63.在Xpath中,XML 文档是被作为()来对待的?
A、谓语
B、节点
C、节点树
D、属性
正确答案:C
二、多选题(共17题,每题1分,共17分)
1.正则表达式是对()和()操作的一种逻辑公式?
A、元字符
B、普通字符
正确答案:AB
2.互联网应用中,搜索引擎的主要任务()
A、信息删除
B、信息搜集
C、信息查询
D、信息处理
正确答案:BCD
3.以下属于Windows事件日志中的事件类型的是()
A、错误事件
B、信息事件
C、失败审核事件
D、警告事件
E、成功审核事件
正确答案:ABCDE
4.关于random.uniform(a.b)的作用描述,以下选项中错误的是()
A、生成一个均值为a,方差为b的正态分布
B、生成一个(a. b)之间的随机数
C、生成一个[a. b]之间的随机整数
D、生成一个[a. b]之间的随机小数
正确答案:ABC
5.关于Python语言的浮点数类型,以下选项中描述错误的是()
A、Python语言要求所有浮点数必须带有小数部分
B、浮点数类型与数学中实数的概念是不一致的
C、小数部分不可以为0
D、浮点数类型表示带有小数的类型
正确答案:BC
6.在xpath中,节点是通过沿着()或者()来选取的。

A、路径
B、属性
C、步
D、谓语
正确答案:AC
7.爬取网页数据时,以下是正确使用requests库的方法的是()。

A、requests.delete('网址')
B、requests.get('网址')
C、requests.head('网址')
D、requests.post('网址'. data=data)
正确答案:ABCD
8.数组资源包含哪几种类型
A、<integer-array />
B、<array />
C、<string-array />
D、<float-array />
正确答案:ABC
9.C/S是一种()。

A、游戏
B、网络模型
C、主从式网络模型
D、客户机服务器模型
正确答案:BCD
10.下列哪些可以匹配由26个英文字母组成的字符串?
A、^[A-Z]+$
B、^[a-z]+$
C、^[A-Za-z]+$
D、^[A-Za-z]
正确答案:ABC
11.以下属于CRM主要应用方面的是()。

A、客户档案有序管理
B、合同管理
C、销售报表
D、预测销售业绩
正确答案:ABCD
12.下列属于数据操纵语言中典型的语句有( )
A、INSERT
B、SELECT
C、UPDATE
D、DELETE
正确答案:ABCD
13.下列哪些可以匹配英文和汉字?
A、^[A-Za-z0-9]+$
B、[A-Za-z0-9]+$
C、^[A-Za-z0-9]{4.40}$
D、^[A-Za-z0-9]{4.40}
正确答案:AC
14.在当前目录(非根目录)下有一个test.sh脚本文件.以下哪些选项可以运行该脚本文件()
A、bash /test.sh
B、sh test.sh
C、sh ./test.sh
D、bash test.sh
正确答案:BCD
15.使用scrapy的startproject命令创建了一个项目后,默认包含的文件有()
A、spider.py
B、items.py
C、pipelines.py
D、setting.py
正确答案:BCD
16.CSS选择器主要包括()。

A、类选择器
B、标签选择器
C、ID选择器
D、父选择器
正确答案:ABC
17.Scrapy的组件Link Extracter实现过滤的选项包括()等
A、allow_domains
B、deny_extensions
C、deny
D、allow
正确答案:ABCD
三、判断题(共27题,每题1分,共27分)
1.可以在插入数据的SQL语句中使用SELECT语句。

A、正确
B、错误
正确答案:A
2.加密信息的保密性仅取决于加密所用密钥的复杂程度
A、正确
B、错误
正确答案:B
3.在OSI/RM中能完成不同数据编码格式的转换,提供数据压缩、解压缩服务并对数据进行加密、解密的层次是传输层
A、正确
B、错误
正确答案:A
4.可以用DECLARE CURSOR来声明游标。

A、正确
B、错误
正确答案:A
5.Apache服务器的主配置文件名称为httpd.conf
A、正确
B、错误
正确答案:A
6.Android开发中,ListView比较适合显示文本的列表,无法用于图文并茂的样式。

A、正确
B、错误
正确答案:B
7.候选关键字中的属性称为复合属性
A、正确
B、错误
正确答案:B
8.采集数据时,文档、图片、图像、音频、视频等都属于非结构化数据。

A、正确
B、错误
正确答案:A
9.SLF4J不是一个真正的日志实现,而是一个抽象层,它允许你在
后台使用任意一个日志类库。

A、正确
B、错误
正确答案:A
10.数据库采集主要是使用MySQL 和 Oracle等关系型数据库及Redis、MongoDB 和 HBase 等 NoSQL 数据库。

A、正确
B、错误
正确答案:A
11.数据采集的重点在于数据本身,而不在于如何能够真正地解决数据运营中的实际商业问题。

A、正确
B、错误
正确答案:B
12.允许空值的字段上可以定义主键约束
A、正确
B、错误
正确答案:B
13.在select语句的where子句中,使用正则表达式过滤数据的关键字是match
A、正确
B、错误
正确答案:B
14.print()函数可同时输出一个或多个数据,在输出多个数据时,默认使用空格作为输出分隔符。

A、正确
B、错误
正确答案:A
15.$(“div”).css( “color”,"red )可以将一个表单的所有div 元素都设置为红色"
A、正确
B、错误
正确答案:A
16.HBase中的数据都是以字符串形式存储的,为空的列并不占用存储空间。

A、正确
B、错误
正确答案:A
17.错误日志是Apache提供的另一种标准日志,该日志文件记录了Apache服务器运行过程所发生的错误信息
A、正确
B、错误
正确答案:A
18.虽然不需要在使用之前显式地声明变量及其类型,但是Python 仍属于强类型编程语言,Python解释器会根据赋值或运算来自动推断变量类型。

A、正确
B、错误
正确答案:A
19.WHERE NAME IS NOT NULL可以查找条件为:姓名不是NULL的记录
A、正确
B、错误
正确答案:A
20.在xpath中,谓语无需被嵌在方括号中。

A、正确
B、错误
正确答案:B
21.数据库操作中,WHERE NAME IS NOT NULL可以查找条件为:姓名不是NULL的记录。

A、正确
B、错误
正确答案:A
22.Python是一种免费的开源语言,因易用性常常与R相提并论。

A、正确
B、错误
正确答案:A
23.大数据类型数据库是用来替代关系型数据库的
A、正确
B、错误
正确答案:B
24.内部网核心层设计任务的重点是冗余能力、可靠性和高速的数据传输。

A、正确
B、错误
正确答案:A
25.文档、图片、图像、音频、视频等都属于非结构化数据
A、正确
B、错误
正确答案:A
26.网络爬虫是针对网站页面数据的爬取,不包括终端APP上页面信息的爬取。

A、正确
B、错误
正确答案:B
27.alter table emp remove addcolumn能够删除一列
A、正确
B、错误
正确答案:B。

相关文档
最新文档