序号:1, 题目类型:判断题
题目: 对于一组数值型数据的中位数、四分位数等分布情况,常用箱线图来展示。()
选项:
A. √
B. ×
答案:
A. √
序号:2, 题目类型:判断题
题目: 大数据中的"大"主要指的是数据种类的多样性,而不是指数据量的大小。( )
选项:
A. √
B. ×
答案:
B. ×
序号:3, 题目类型:判断题
题目: 对于预测样本的分类,决策树从根节点开始,根据预测样本的属性结果选择适当的分支,直到到达某个叶节点的类标号。( )
选项:
A. √
B. ×
答案:
A. √
序号:4, 题目类型:判断题
题目: Hadoop和Spark都是大数据处理的工具,其中Hadoop适用于处理大量静态数据,而Spark适合处理需要实时处理的数据流。()
选项:
A. √
B. ×
答案:
序号:5, 题目类型:判断题
题目: NoSQL和NewSQL数据库是为满足非结构化数据和大数据处理应用的特殊要求,作为对关系型数据库的补充而出现的。( )
选项:
A. √
B. ×
答案:
序号:6, 题目类型:判断题
题目: 对于数据缺失的现象,数据预处理通过如删除、插补等方式进行处理。( )
选项:
A. √
B. ×
答案:
序号:7, 题目类型:判断题
题目: 特征选择是指选择对预测结果影响力较大的特征,以改善学习算法的性能和解释性。( )
选项:
A. √
B. ×
答案:
序号:8, 题目类型:判断题
题目: 遵守GDPR等数据保护法规,不仅能够保护个人和企业数据的安全,也有助于提升企业的声誉和客户信任。()
选项:
A. √
B. ×
答案:
序号:9, 题目类型:判断题
题目: DIKW模型描述了数据如何逐步转化为信息、知识及智慧的过程。( )
选项:
A. √
B. ×
答案:
序号:10, 题目类型:判断题
题目: 根据数据在收集过程中是否控制有关因素,可以将数据分为观测数据和实验数据。( )
选项:
A. √
B. ×
答案:
序号:11, 题目类型:单选题
题目: 噪声是指测量数据中的()
选项:
A. 随机误差
B. 均值
C. 方差
D. 极差
答案:
序号:12, 题目类型:单选题
题目: 下列各项不属于云计算特点的是( )
选项:
A. 敏捷
B. 弹性计算
C. 节约成本
D. 过度配置资源
答案:
序号:13, 题目类型:单选题
题目: 下列哪种不是数据预处理中用于数据清洗的技术( )
选项:
A. 空值处理
B. 数据格式转换
C. 异常值处理
D. 数据加密
答案:
序号:14, 题目类型:单选题
题目: 下列关于数据仓库的特点,描述错误的是( )
选项:
A. 数据以主题为导向,提供决策支持
B. 关注数据随时间的变化,支持历史数据分析
C. 数据质量高,提供数据一致性和准确性
D. 数据源和数据类型单一
答案:
序号:15, 题目类型:单选题
题目: 在HDFS架构中,以下哪一项行为由数据节点(DataNodes)执行()
选项:
A. 存储数据块
B. 创建和删除文件
C. 维护元数据
D. 处理客户端请求
答案:
序号:16, 题目类型:单选题
题目: 在HDFS的工作机制中,如果NameNode无法正常工作,它会做什么?()
选项:
A. 停止所有在DataNode上的作业
B. 重新分配数据块
C. 重新分配DataNode的处理任务
D. 将数据块移动到另一个节点
答案:
序号:17, 题目类型:单选题
题目: 在Hadoop生态系统中,被视作Hadoop生态系统的大脑,负责节点集群的任务调度和资源分配的组件是( )
选项:
A. HBase
B. HDFS
C. YARN
D. Pig
答案:
序号:18, 题目类型:单选题
题目: HDFS的可扩展性主要体现在()
选项:
A. 随着需求的增加,集群可以轻松扩展到更多节点
B. 即使集群中的某个节点发生故障,数据依然可用
C. 以分布式方式存储数据,减少处理时间
D. 确保数据始终可用,防止数据丢失
答案:
序号:19, 题目类型:单选题
题目: 下列各项不能用于描述数据集中趋势的是( )
选项:
A. 方差
B. 平均数
C. 中位数
D. 峰值
答案:
序号:20, 题目类型:单选题
题目: 在数据挖掘中,用以预测具有连续值输出的问题,一般选用( )方法
选项:
A. 分类
B. 聚类
C. 回归
D. 关联规则
答案:
序号:21, 题目类型:单选题
题目: 以下关于聚类分析的描述中,错误的是( )
选项:
A. 聚类分析是一种无监督学习方法
B. K-means是一种常用的聚类分析方法
C. 聚类分析的目的是找出已知类别的数据
D. 聚类分析常用于市场分析和社交网络分析
答案:
序号:22, 题目类型:单选题
题目: 关于时间序列数据的描述,以下哪一项是错误的?
选项:
A. 是按时间顺序排列的观测值序列
B. 不能使用统计方法进行分析
C. 在时间间隔上接近的观测值通常更相关
D. 两个观测值在时间间隔上越远,它们的相关性就更弱
答案:
序号:23, 题目类型:单选题
题目: 在以二维表形式表示的数据集中,行表示( )
选项:
A. 特征
B. 样本
C. 属性
D. 字段
答案:
序号:24, 题目类型:单选题
题目: 下列各项不属于大数据特征的是( )
选项:
A. 体量大
B. 种类多
C. 真实性
D. 数据生成慢
答案:
序号:25, 题目类型:单选题
题目: 下列哪个应用场景不属于大数据在医疗领域的应用( )
选项:
A. 疾病诊断
B. 患者管理
C. 电子病历分析
D. 动物饲养管理
答案:
序号:26, 题目类型:单选题
题目: 大数据处理流程中的( )步骤是将数据转化为图形,以更直观的方式展示和表达
选项:
A. 数据的采集与预处理
B. 数据的存储与管理
C. 数据的可视化
D. 数据的分析与挖掘
答案:
序号:27, 题目类型:单选题
题目: 以下哪种图形适合展示时间序列数据?
选项:
A. 饼形图
B. 散点图
C. 直方图
D. 折线图
答案:
序号:28, 题目类型:单选题
题目: 对于只有二分属性的分类变量,最适合使用()进行数据展示
选项:
A. 饼图
B. 雷达图
C. 柱形图
D. 散点图
答案:
序号:29, 题目类型:单选题
题目: 在大数据中,以下哪项可能导致个人信息被泄露?
选项:
A. 数据发布的匿名技术
B. 数据脱敏过于彻底
C. 不完善的隐私保护政策
D. 数据线性规划
答案:
序号:30, 题目类型:单选题
题目: 2021年9月1日,我国( )正式施行
选项:
A. 数据安全法
B. 网络安全法
C. 个人信息保护法
D. 隐私法
答案:
序号:31, 题目类型:问答题
题目: 当预测变量包含的缺失值比率较高时,我们一般使用什么方法处理?为什么要这样做?
选项:
答案:
序号:32, 题目类型:问答题
题目: 请简述决策树在大数据分析中的应用以及其主要优缺点?
选项:
答案:
序号:33, 题目类型:问答题
题目: 请列举三种大数据在金融领域的应用。
选项:
答案:
序号:34, 题目类型:问答题
题目: 请解释什么是截面数据,并给出一个相关的例子。
选项:
答案: