序号:1, 题目类型:判断题
题目: 散点图是最常用于展示两个数值型变量之间关系的可视化方法。( )
选项:
A. √
B. ×
答案:
A. √
序号:2, 题目类型:判断题
题目: 电子商务通过大数据技术优化推荐算法,改善用户购物体验。( )
选项:
A. √
B. ×
答案:
A. √
序号:3, 题目类型:判断题
题目: 决策树是一种简单高效的分类模型。( )
选项:
A. √
B. ×
答案:
A. √
序号:4, 题目类型:判断题
题目: 大数据分析就是对大量复杂的数据进行分析,以揭示隐藏的模式、未知的关联、市场趋势、客户偏好等有用信息。()
选项:
A. √
B. ×
答案:
A. √
序号:5, 题目类型:判断题
题目: NoSQL数据库是专门为大数据和实时网页应用设计的,因此通常不支持ACID事务。( )
选项:
A. √
B. ×
答案:
A. √
序号:6, 题目类型:判断题
题目: 数据清洗就是将无用的、重复的、不完整的数据进行修改或删除,以保证数据质量的过程。( )
选项:
A. √
B. ×
答案:
序号:7, 题目类型:判断题
题目: 数据预处理的过程中不需要进行数据转换。( )
选项:
A. √
B. ×
答案:
序号:8, 题目类型:判断题
题目: 在大数据环境下,数据使用的合规性并不需要考虑,因为大数据的收集和分析主要是为了提供更好的服务和产品。( )
选项:
A. √
B. ×
答案:
序号:9, 题目类型:判断题
题目: 数据科学的发展不仅可以推动学科的发展,而且能够助推相关产业的发展与进步。()
选项:
A. √
B. ×
答案:
序号:10, 题目类型:判断题
题目: 在大数据的应用中,只需要依赖大数据分析技术,与各行业的业务关联性并不大。()
选项:
A. √
B. ×
答案:
序号:11, 题目类型:单选题
题目: 下列关于数据预处理的描述中,错误的是( )
选项:
A. 数据预处理是数据挖掘过程中很重要的一步
B. 数据预处理可以提高后续数据分析的准确率
C. 数据预处理中,无论何时数据都需要降维处理
D. 数据预处理包括数据清洗、数据集成等步骤
答案:
序号:12, 题目类型:单选题
题目: 下列哪个是常用的网络爬虫工具或框架?
选项:
A. Illustrator
B. Photoshop
C. Scrapy
D. MS Word
答案:
序号:13, 题目类型:单选题
题目: 数据预处理的主要目的是()
选项:
A. 确定数据的来源
B. 改变数据的存储位置
C. 提高数据的质量和挖掘效率
D. 增加原始数据的数量
答案:
序号:14, 题目类型:单选题
题目: 目前处理大数据的需求,更倾向于使用哪种数据库?()
选项:
A. SQL数据库
B. NoSQL数据库
C. Microsoft Access数据库
D. Oracle数据库
答案:
序号:15, 题目类型:单选题
题目: 下列关于数据仓库三层架构的描述中,正确的是( )
选项:
A. 顶层由联机分析处理服务器组成
B. 底层由数据仓库服务器组成
C. 中间层由前端用户界面表示
D. 数据在中间层完成加载和存储
答案:
序号:16, 题目类型:单选题
题目: 数据仓库为什么可以帮助企业保持竞争力?
选项:
A. 提供数据分析功能以及数据可视化和演示功能
B. 数据仓库可以自动清理垃圾数据
C. 使用数据仓库可以节省存储空间
D. 数据仓库提供了大量质量低下的数据供企业使用
答案:
序号:17, 题目类型:单选题
题目: 下列各项不属于Hadoop的特点是( )
选项:
A. 存储迅速
B. 成本高
C. 计算能力强
D. 灵活性强
答案:
序号:18, 题目类型:单选题
题目: Hadoop生态系统是一种( )
选项:
A. 编程语言
B. 服务
C. 统计分析软件
D. 解决大数据问题的平台
答案:
序号:19, 题目类型:单选题
题目: 下列各项关于聚类的描述中,错误的是()
选项:
A. 可以借助聚类方法进行异常检测
B. 在进行建模之前就要有明确的分组预测目标
C. 可以利用聚类分析发现具有相似功能的基因组
D. 根据数据本身的自然结构对数据进行分组
答案:
序号:20, 题目类型:单选题
题目: k近邻算法是一种简单但强大的( )算法
选项:
A. 分类
B. 聚类
C. 相关分析
D. 回归分析
答案:
序号:21, 题目类型:单选题
题目: 在大数据的挖掘中,用于解决分类问题的机器学习算法不包括( )
选项:
A. 决策树
B. 支持向量机
C. k-近邻
D. 线性回归
答案:
序号:22, 题目类型:单选题
题目: 下列哪种数据属于半结构化数据()
选项:
A. XML
B. 关系数据库中的数据
C. 图像
D. 二维数据表
答案:
序号:23, 题目类型:单选题
题目: 下列关于非结构化数据的描述,哪一项是错误的()
选项:
A. 非结构化数据没有固定的数据模型
B. 非结构化数据包括图像、声音、视频等
C. 非结构化数据不可以进行数据分析
D. 非结构化数据数量大
答案:
序号:24, 题目类型:单选题
题目: 根据原始数据是否为数据的直接来源,可以将数据分为( )
选项:
A. 结构化、非结构化和半结构化数据
B. 一手数据和二手数据
C. 观测数据和实验数据
D. 截面数据和时间序列数据
答案:
序号:25, 题目类型:单选题
题目: 下列哪项不是大数据在电商领域的主要应用()
选项:
A. 用户行为分析
B. 商品推荐
C. 存货管理
D. 航天探索
答案:
序号:26, 题目类型:单选题
题目: 用以表示变量之间关系的一种可视化方法是()
选项:
A. 饼图
B. 条形图
C. 散点图
D. 直方图
答案:
序号:27, 题目类型:单选题
题目: 散点图中的观测点分布得很分散,没有任何规律,表明两个变量( )
选项:
A. 完全线性相关
B. 线性相关
C. 非线性相关
D. 没有相关关系
答案:
序号:28, 题目类型:单选题
题目: 可以用来查看数值型变量的分布的可视化方法是()
选项:
A. 箱线图
B. 直方图
C. 小提琴图
D. 以上方法均可以
答案:
序号:29, 题目类型:单选题
题目: 大数据环境中,用于检测和防止非法用户伪造身份或越权访问的技术是( )
选项:
A. 数据脱敏
B. 访问控制
C. 数据水印
D. 数据匿名化
答案:
序号:30, 题目类型:单选题
题目: 以下哪一项是大数据处理涉及的隐私保护问题( )
选项:
A. 数据量大
B. 数据复杂度高
C. 数据的敏感信息泄露
D. 数据分析速度慢
答案:
序号:31, 题目类型:问答题
题目: 请简述解释大数据中的“脏数据”是什么以及可能的产生原因。
选项:
答案:
序号:32, 题目类型:问答题
题目: 为什么我们在做聚类分析之前需要进行特征选择或者特征抽取?
选项:
答案:
序号:33, 题目类型:问答题
题目: 请列举三种大数据在汽车领域的应用。
选项:
答案:
序号:34, 题目类型:问答题
题目: 请简述大数据的价值所在?
选项:
答案: