24春学期(高起本:1709-2103、专升本/高起专:2003-2103)《网络爬虫与信息提取》在线作业-00001
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.PyMongo中逻辑查询表示小于的符号是()
A.$gt
B.$lt
C.$gte$$lte
2.Scrapy_redis是Scrapy的“()”,它已经封装了使用Scrapy操作Redis的各个方法
A.组件
B.模块
C.控件
D.单元
3.在Linux中哪个命令是添加权限的()
A.chmod
B.sudo
C.cp
D.mkdir
4.如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击
A.XSS
B.DOS
C.DDOS
D.跨域
5.下列说法错误的是()
A.小程序的请求极其简单,基本上没有验证信息
B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多。
C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据。
D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率。
6.Python中列表可以用()方法在末尾添加元素
A.add
B.append
C.plus
D.+
7.使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令()
A.wakeup
B.light
C.bright
D.sleep
8.()是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。
A.meta
B.head
C.header
D.body
9.使用UI Automator打开微信的操作是获取相应图标后使用命令()
A.touch
B.click
C.push
D.hover
10.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A.列表
B.元组
C.字典
D.集合
11.HTTP常用状态码表明服务器内部资源出故障了的是()
A.500
B.503
C.403
D.404
12.当需要把Python里面的数据发送给网页时,应先将其转换成()
A.Json字符串
B.GET
C.POST
D.Request
13.Redis若要进入交互环境,需要打开终端输入()
A.redis-cli
B.redis
C.redis-cmd
D.redis-start
14.在Scrapy的目录下,哪个文件负责存放爬虫文件?()
A.spiders文件夹
B.item.py
C.pipeline.py
D.settings.py
15.Python操作CSV文件可通过()容器的方式操作单元格
A.列表
B.元组
C.字典
D.集合
16.Python正则表达式模块的findall方法返回结果为()
A.列表
B.元组
C.字典
D.集合
17.以下关于Charles的说法正确的是( )
A.Charles是一个跨平台的HTTP抓包工具,可以截取HTTP或者HTTPS请求的数据包
B.Charles有Windows 32/64版和Linux 64 版,但是目前还没有对Mac OS进行有效的支持。
C.Charles上面滚动的数据就是目前计算机发起的数据包。单击工具栏上面的黄色笤帚图标,可以清停止抓包。
D.在Charles启动时,系统自带浏览器的部分HTTP流量不会经过Charles。
18.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个()
A.列表
B.元组
C.字典
D.集合
19.Redis中读取数据语句lrange chapter 0 3,那么表示读列表中()个值
A.2
B.3
C.4
D.5
20.Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含()
A.列表
B.元组
C.字典
D.集合
二、多选题 (共 10 道试题,共 20 分)
21.一个可行的自动更换代理的爬虫系统,应该下列哪些功能?
A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中
B.在发现某个请求已经被设置过代理后,什么也不做,直接返回
C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用
D.周期性验证数据库中的无效代理,及时将其删除
22.Python中有哪些实现多线程方法()
A.multiprocess.dummy
B.threading.Thread
C.process
D.PyMongoDB
23.以下哪些可以独立成为Python编译器()
A.Pycharm
B.IDLE
C.Eclipse
D.Visual Studio 2010
24.网络爬虫的用途有()
A.收集数据
B.尽职调查
C.提高流量
D.攻击服务器
25.HTTP常用状态码表明请求被正常处理的有()
A.200
B.301
C.302
D.204
26.下列关于在IOS上配置charles的说法正确的是()
A.不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口。
B.手机和电脑需要在同一个局域网下。
C.HTTP代理可以使用“自动”选项。
D.安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动
27.Python中一个函数没有返回值则可以写()
A.没有return
B.return
C.return None
D.return NULL
28.最常见的HTTP请求类型有()
A.GET
B.POST
C.SEND
D.RECEIVE
29.HTTP常用状态码表明表明服务器本身发生错误的有()
A.403
B.404
C.500
D.503
30.自动填充验证码的方式有
A.手动识别填写
B.图像识别
C.打码网站
D.浏览器自动识别
三、判断题 (共 20 道试题,共 40 分)
31.微信小程序的反爬虫能力要比网页的高很多。
32.Python中写CSV文件的writerows方法参数为字典类型
33.Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取
34.UI Automator Viewer与Python uiautomator可以同时使用
35.robots.txt是一种规范,在法律范畴内
36.虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。
37.上课传纸条。A要把纸条传给B,但是A与B距离太远,于是让C来转交纸条。此时,C先篡改纸条的内容再传给B,这是一种类似抓包的方式。
38.默认情况下,MongoDB可以通过外网访问
39.使用AJAX技术,可以在不刷新网页的情况下更新网页数据
40.Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。
41.如果元组里面只有整数、浮点数、字符串、一个列表,就既不能添加数据,也不能删除数据,还不能修改里面数据的值。
42.HTTP状态码302表示资源永久重定向。
43.对Charles设置代理时,Ip可以设置为127.0.0.1,端口为8888.
44.使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。
45.在Windows中下若要运行Redis可以运行redis-server /usr/local/etc/redis.conf
46.PyMongoDB中排序方法sort第二个参数-1表示升序
47.Redis的集合与Python的集合一样,没有顺序,值不重复
48.中间人攻击也是抓包的一种。
49.MongoDB中ObjectId可以反向恢复为时间
50.如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法的。