南开19秋学期《网络爬虫与信息提取》在线作业(100分)
【奥鹏】[南开大学]19秋学期(1709、1803、1809、1903、1909)《网络爬虫与信息提取》在线作业试卷总分:100 得分:100
第1题,启动MongoDB使用命令mongod --() usr/local/etc/mongod.conf
A、config
B、install
C、start
D、begin
正确答案:
第2题,下列哪项不是HTTP的请求类型()
A、GET
B、POST
C、PUT
D、SET
正确答案:
第3题,以下哪个命令是利用URL语法在命令行下工作的文件传输工具()
A、curl
B、tar -zxvf
C、mkdir
D、cp
正确答案:
第4题,HTTP常用状态码表明服务器内部资源出故障了的是()
A、500
B、503
C、403
D、404
正确答案:
第5题,windows中创建定时任务的命令为
A、task
B、schtasks
C、createtasks
D、maketasks
正确答案:
第6题,Python中若定义object=(1, 2, 3, 4, 5),则print(object[:3])输出()
A、345
B、34
C、45
D、123
正确答案:
第7题,打开终端,输入(),屏幕上会出现Python的路径
A、python path
B、path python
C、which python
D、python which
正确答案:
第8题,在Scrapy的目录下,哪个文件负责数据抓取以后的处理工作?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案:
第9题,下面Python代码输出为():
def default_para_trap(para=[], value=0):para.append(value)return paraprint('第一步:{}'.format(default_para_trap(value=100)))print('第二步:{}'.format(default_para_trap(value=50)))
A、第一步:
第二步:
B、第一步:
第二步:
C、第一步:
第二步:[]
D、第一步:
第二步:
正确答案:
第10题,以下哪个HTML标签表示定义 HTML 表格中的标准单元格()
A、
B、
C、
D、
正确答案:
第11题,使用Xpath构造属性值包含相同字符串的路径采用()方法
A、contain
B、contains
C、include
D、includes
正确答案:
第12题,以下表示请求正常处理的HTTP状态码为
A、200
B、301
C、404
D、500
正确答案:
第13题,Scrapy_redis是Scrapy的“()”,它已经封装了使用Scrapy操作Redis的各个方法
A、组件
B、模块
C、控件
D、单元
正确答案:
第14题,HTTP状态码401表示
A、请求报文中可能存在语法错误
B、请求需要通过HTTP认证
C、请求资源的访问被拒绝
D、服务器上没有请求的资源
正确答案:
第15题,使用UI Automatorr判断元素是否存在的操作是得到相应控件后使用命令()
A、exist
B、exists
C、isnull
D、contains
正确答案:
第16题,如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个()
A、列表
B、元组
C、字典
D、集合
正确答案:
第17题,Python中以下哪个容器里的元素不能重复()
A、列表
B、元组
C、字典
D、集合
正确答案:
第18题,Python正则表达式模块的findall方法返回结果为()
A、列表
B、元组
C、字典
D、集合
正确答案:
第19题,使用UI Automator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()
A、content
B、text
C、title
D、body
正确答案:
第20题,以下表示请求资源重定向的HTTP状态码为
A、200
B、301
C、404
D、500
正确答案:
第21题,常用的会话跟踪技术是
A、session
B、cookies
C、moonpies
D、localstorage
正确答案:,B
第22题,如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据()来起诉使用爬虫的公司
A、服务器日志
B、数据库日志记录
C、程序日志记录
D、服务器监控
正确答案:,B,C,D
第23题,PyMongo删除操作有()
A、delete
B、delete_all
C、delete_one
D、delete_many
正确答案:,D
第24题,以下哪些方法属于Python写CSV文件的方法()
A、writeheaders
B、writeheader
C、writerrows
D、writerow
正确答案:,C,D
第25题,使用Selennium获取网页中元素的方法有
A、find_element_by_name
B、find_element_by_id
C、find_elements_by_name
D、find_elements_by_id
正确答案:,B,C,D
第26题,在配置ios使用Charles的操作中,正确的有()
A、对于苹果设备,首先要保证计算机和苹果设备联在同一个Wi-Fi上。
B、选择“HTTP代理”下面的“手动”选项卡,在“服务器”处输入计算机的IP地址,在“端口”处输入8888
C、输入完成代理以后按下苹果设备的Home键,设置就会自动保存。
D、安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任
正确答案:,B,C,D
第27题,cookies的缺点是
A、实现自动登录
B、跟踪用户状态
C、http中明文传输
D、增加http请求的流量
正确答案:,D
第28题,Python中()容器有推导式
A、列表
B、元组
C、字典
D、集合
正确答案:,C,D
第29题,一个可行的自动更换代理的爬虫系统,应该下列哪些功能?
A、有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中
B、在发现某个请求已经被设置过代理后,什么也不做,直接返回
C、在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用
D、周期性验证数据库中的无效代理,及时将其删除
正确答案:,C,D
第30题,Python中通过Key来从字典object中读取对应的Value的方法有()
A、object
B、object.get(key)
C、object.pop(key)
D、object.pop()
正确答案:,B
第31题,XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。
T、对
F、错
正确答案:F
第32题,在对XPath返回的对象再次执行XPath的时候,子XPath开头需要添加斜线
T、对
F、错
正确答案:F
第33题,robots.txt是一种规范,在法律范畴内
T、对
F、错
正确答案:F
第34题,PyMongoDB中排序方法sort第二个参数1表示降序
T、对
F、错
正确答案:F
第35题,在使用多线程处理问题时,线程池设置越大越好
T、对
F、错
正确答案:F
第36题,requests中post请求方法的使用为requests.post('网址', data=data)
T、对
F、错
正确答案:T
第37题,在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务
src/redis-server
T、对
F、错
正确答案:F
第38题,device.sleep()方法是使用UI Automatorr关闭屏幕的命令
T、对
F、错
正确答案:T
第39题,通用网络爬虫通常采用串行工作方式
T、对
F、错
正确答案:F
第40题,如果把网络上发送与接收的数据包理解为快递包裹,那么在快递运输的过程中取出查看更改里面的内容,就是类似抓包的过程
T、对
F、错
正确答案:F
第41题,在Windows中下若要运行Redis可以运行redis-server /usr/local/etc/redis.conf
T、对
F、错
正确答案:F
第42题,使用AJAX技术,可以在不刷新网页的情况下更新网页数据
T、对
F、错
正确答案:T
第43题,当Charles抓包以后,在Mac OS系统下可以按Command+F组合键,在Windows系统下按Ctrl+F组合键打开Charles进行搜索
T、对
F、错
正确答案:T
第44题,如果MongoDB运行在所在的计算机上,MONGODB_HOST应该写成"192.168.0.1"
T、对
F、错
正确答案:F
第45题,Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本
T、对
F、错
正确答案:T
第46题,在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装
T、对
F、错
正确答案:F
第47题,Python正则表达式中“.*”是贪婪模式,获取最长的满足条件的字符串。
T、对
F、错
正确答案:T
第48题,Python中条件语句在使用and连接的多个表达式中,只要有一个表达式不为真,那么后面的表达式就不会执行。
T、对
F、错
正确答案:T
第49题,PyMongoDB中排序方法sort第二个参数-1表示升序
T、对
F、错
正确答案:F
第50题,一般来说在页面都通过GET将用户登录信息传递到服务器端。
T、对
F、错
正确答案:F
页:
[1]