《大数据技术》在线平时作业2-00001
试卷总分:100 得分:100
一、单选题 (共 10 道试题,共 50 分)
1.数据提取阶段主要是要提取不同的数据,并将其转化为大数据解决方案中可用于( )的格式。需要提取和转化的程度取决于分析的类型和大数据解决方案的能力。
A.完善数据结构
B.建立存储结构
C.整合验证规则
D.充实合理数据
2.下列关于计算机存储容量单位的说法中,错误的是( )
A.数据规模大
B.数据类型多样
C.数据处理速度快
D.数据价值密度高
3.时间序列图可以分析在固定时间间隔记录的数据,它通常用( )图表示,x轴表示时间,y轴记录数据值。
A.圆饼
B.折线
C.热区
D.直方
4.HFile数据格式中的KeyValue数据格式中Value部分是()
A.拥有复杂结构的字符串
B.字符串
C.二进制数据
D.压缩数据
5.随机森林是一类专门为决策树分类器设计的组合方法,它组合了( )对样本进行训练和预测
A.链接方式
B.计算方法
C.相似程度
D.亲疏程度
6.大数据分析结合了( )。
A.原则性分析
B.容错性分析
C.提炼性分析
D.诊断性分析
7.解决大数据分析问题的一个重要思路就在于减少数据量。可以通过减少描述数据的属性来达到目的,这就是( )技术。
A.降维
B.减法
C.复合
D.审计
8.人们从分析角度为大数据下了一个不同的定义:如果数据满足以下任何一个条件,那么就视其为大数据,但是除下列( )之外。
A.价值发现
B.数学计算
C.图形处理
D.数据积累
9.Hadoop fs中的-get和-put命令操作对象是( )
A.文件
B.目录
C.两者都是
10.文本分析是非结构大数据分析的一个基本问题,是指对文本的表示及其( )的选取
A.数据库分析
B.硬盘分析
C.内存分析
D.云计算分析
二、多选题 (共 5 道试题,共 25 分)
11.下面哪些选项正确描述了HBase的特性?
A.高可靠性
B.高性能
C.面向列
D.可伸缩
12.下面对HBase的描述哪些是正确的?
A.不是开源的
B.是面向列的
C.是分布式的
D.是一种NoSQL数据库
13.下列哪项可以作为集群的管理?
A.Puppet
B.Pdsh
C.Cloudera Manager
D.Zookeeper
14.HBase官方版本可以安装在什么操作系统上?
A.CentOS
B.Ubuntu
C.RedHat
D.Windows
15.HBase性能优化包含下面的哪些选项?
A.读优化
B.写优化
C.配置优化
D.JVM优化
三、判断题 (共 5 道试题,共 25 分)
16.如果 NameNode 意外终止,SecondaryNameNode 会接替它使集群继续工作。
17.Mapreduce 的 input split 就是一个 block。
18.Hadoop 是 Java 开发的,所以 MapReduce 只支持 Java 语言编写。
19.因为 HDFS 有多个副本,所以 NameNode 是不存在单点问题的。
20.集群内每个节点都应该配 RAID,这样避免单磁盘损坏,影响整个节点运行。