25春学期(高起本:1809-2103、专升本/高起专:2103)《网络爬虫与信息提取》在线作业-00003
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.使用Xpath获取文本使用()
A.text
B.text()
C.content
D.content()
2.使用UI Automator使屏幕向上滚动一屏的操作是得到相应控件后使用命令()
A.scroll_forwad
B.scroll_up
C.scroll.forward
D.scroll.vert.forward
3.使用UI Automatorr长按点击的操作是得到相应控件后使用命令()
A.longclick
B.long_click
C.clicklong
D.click_long
4.下列说法错误的是()
A.Charles只能截获HTTP和HTTPS的数据包,如果网站使用的是websocket或者是flashsocket,那么Charles就无能为力。
B.有一些App会自带证书,使用其他证书都无法正常访问后台接口。在这种情况下,Charles自带的证书就不能正常使用,也就没有办法抓取这种App的数据
C.有一些App的数据经过加密,App接收到数据以后在其内部进行解密。Charles无法获取这种App的数据
D.对于上述情况,Charles能抓取到经过加密的数据。但是如果无法知道数据的具体加密方法,就没有办法解读Charles抓取到的数据。
5.PyMongo中逻辑查询表示等于的符号是()
A.$gt
B.$lt
C.$eq$$ne
6.下列哪项不是HTTP的请求类型()
A.GET
B.POST
C.PUT
D.SET
7.Redis中写数据到列表中,使用关键字()
A.push
B.append
C.lpush
D.lappend
8.HTTP常用状态码表明服务器正忙的是()
A.500
B.503
C.403
D.404
9.Python正则表达式模块的findall方法返回结果为()
A.列表
B.元组
C.字典
D.集合
10.查看网站请求一般在Chrome开发者模式下的()选项卡中查看
A.Console
B.Sources
C.Network
D.Performance
11.Redis中往集合中读数据,使用关键字()
A.pop
B.spop
C.lpop
D.range
12.HTTP常用状态码表明服务器上没有请求的资源的是()
A.500
B.503
C.403
D.404
13.浏览器用来记录用户状态信息的数据叫
A.session
B.cookies
C.moonpies
D.selenium
14.网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的()。
A.robot.txt
B.robot.html
C.robots.txt
D.robots.html
15.PyMongo中逻辑查询表示小于的符号是()
A.$gt
B.$lt
C.$gte$$lte
16.使用UI Automatorr让屏幕向左滚动的操作是得到相应控件后使用命令()
A.scroll.left
B.scroll.horiz.left
C.scroll.forward
D.scroll.horiz.forward
17.要使用Python来操作UI Automator从而控制手机,需要安装一个第三方库()
A.uiautomator
B.automator
C.ui_automator
D.pyautomator
18.以下关于Charles的说法正确的是( )
A.Charles是一个跨平台的HTTP抓包工具,可以截取HTTP或者HTTPS请求的数据包
B.Charles有Windows 32/64版和Linux 64 版,但是目前还没有对Mac OS进行有效的支持。
C.Charles上面滚动的数据就是目前计算机发起的数据包。单击工具栏上面的黄色笤帚图标,可以清停止抓包。
D.在Charles启动时,系统自带浏览器的部分HTTP流量不会经过Charles。
19.MongoDB中数据存储的形式类似于()
A.列表
B.元组
C.字典
D.集合
20.以下哪个命令是利用URL语法在命令行下工作的文件传输工具()
A.curl
B.tar -zxvf
C.mkdir
D.cp
二、多选题 (共 10 道试题,共 20 分)
21.HTTP常用状态码表明请求被正常处理的有()
A.200
B.301
C.302
D.204
22.MongoDB中获取名字为set1的集合的语句为()
A.database.set1
B.database('set1')
C.database['set1']
D.database{'set1'}
23.Python中哪种容器生成后可以修改内容
A.列表
B.元组
C.字典
D.集合
24.常用的会话跟踪技术是
A.session
B.cookies
C.moonpies
D.localstorage
25.最常见的HTTP请求类型有()
A.GET
B.POST
C.SEND
D.RECEIVE
26.Python中通过Key来从字典object中读取对应的Value的方法有()
A.object[key]
B.object.get(key)
C.object.pop(key)
D.object.pop()
27.Python中的容器有()
A.列表
B.元组
C.字典
D.集合
28.MongoDB中获取名字为db的库的语句为()
A.client.db
B.client('db')
C.client['db']
D.client{'db'}
29.以下哪些方法属于Python写CSV文件的方法()
A.writeheaders
B.writeheader
C.writerrows
D.writerow
30.如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据()来起诉使用爬虫的公司
A.服务器日志
B.数据库日志记录
C.程序日志记录
D.服务器监控
三、判断题 (共 20 道试题,共 40 分)
31.Robo 3T与RoboMongo是完全不一样的软件
32.当Charles抓包以后,在Mac OS系统下可以按Command+F组合键,在Windows系统下按Ctrl+F组合键打开Charles进行搜索
33.一般来说在页面都通过GET将用户登录信息传递到服务器端。
34.HTTP只能通过POST请求才能发送数据
35.代理中间件的可用代理列表一定要写在settings.py里面
36.Python中写CSV文件的writerow方法参数为包含字典的列表类型
37.开源库pytesseract的作用是将图像中文字转换为文本。
38.在Windows中下若要运行Redis可以运行redis-server /usr/local/etc/redis.conf
39.在对XPath返回的对象再次执行XPath的时候,子XPath开头需要添加斜线
40.自己能查看的数据,允许擅自拿给第三方查看
41.Python中使用下面代码打开文件也需要对文件进行close关闭操作 with open('文件路径', '文件操作方式', encoding='utf-8') as f
42.在安装Scarpy的依赖库时,由于Visual C++ Build Tools的安装速度很慢,为了节省时间,可以和安装Twisted同时进行
43.PyMongoDB中排序方法sort第二个参数1表示降序
44.安装mitmdump之前,运行sudo apt-get install python3-dev python3-pip libffi-dev libssl-dev是为了安装必要的运行环境。
45.已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行
46.为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。
47.Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。
48.验证码必须通过手动填充识别。
49.使用Charles直接抓取HTTPS的数据包,就会出现大量的Method为CONNECT的请求,但是这些请求又全部都会失败,是没有安装SSL证书导致的
50.Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。