24春学期(高起本:1709-2103、专升本/高起专:2003-2103)《数据科学导论》在线作业-00001
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A.最小化方差#最小化标准差
B.最小化残差平方和
C.最大化信息熵
2.变量之间的关系一般可以分为确定性关系与()。
A.非确定性关系
B.线性关系
C.函数关系
D.相关关系
3.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
A.4
B.5
C.6
D.7
4.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
5.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
6.聚类的最简单最基本方法是()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
7.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值
B.缺失值
C.不一致的值
D.重复值
8.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
9.K-means聚类适用的数据类型是()。
A.数值型数据
B.字符型数据
C.语音数据
D.所有数据
10.在回归分析中,自变量为(),因变量为()。
A.离散型变量,离散型变量
B.连续型变量,离散型变量
C.离散型变量,连续型变量
D.连续型变量,连续型变量
11.对于k近邻法,下列说法错误的是()。
A.不具有显式的学习过程
B.适用于多分类任务
C.k值越大,分类效果越好
D.通常采用多数表决的分类决策规则
12.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
A.越小
B.越大
C.无关
D.不确定
13.以下哪些不是缺失值的影响()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
14.聚类是一种()。
A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
15.层次聚类对给定的数据进行()的分解。
A.聚合
B.层次
C.分拆
D.复制
16.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
17.特征选择的四个步骤中不包括()
A.子集产生
B.子集评估
C.子集搜索
D.子集验证
18.Apriori算法的加速过程依赖于以下哪个策略( )
A.抽样
B.剪枝
C.缓冲
D.并行
19.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A.1,线性
B.2,线性
C.1,非线性
D.2,非线性
20.实体识别的常见形式()
A.同名异义
B.异名同义
C.单位不统一
D.属性不同
二、多选题 (共 10 道试题,共 20 分)
21.下列选项是BFR的对象是()
A.废弃集
B.临时集
C.压缩集
D.留存集
22.什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
23.关联规则的评价度量主要有:()。
A.支持度
B.置信度
C.准确率
D.错误率
24.数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
25.一元回归参数估计的参数求解方法有()。
A.最大似然法
B.距估计法
C.最小二乘法
D.欧式距离法
26.下面例子属于分类的是()
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
27.多层感知机的学习过程包含()。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
28.相关性的分类,按照相关的方向可以分为()。
A.正相关
B.负相关
C.左相关
D.右相关
29.K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
30.对于多层感知机,()层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
三、判断题 (共 20 道试题,共 40 分)
31.如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。
32.k值增大意味着整体模型变得复杂。
33.信息熵越小,样本结合的纯度越低
34.关联规则可以用枚举的方法产生。
35.对于项集来说,置信度没有意义。
36.多元线性回归模型中,标准化偏回归系数没有单位。
37.在一元线性回归中,输入只包含一个单独的特征。
38.当特征为离散型时,可以使用信息增益作为评价统计量。
39.给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
40.赤池信息准则是衡量统计模型拟合优良性的一种标准。
41.特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
42.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。
43.数据科学可以回答复杂的问题,发现世界中隐藏的联系并预测和指导未来。
44.随着特征维数的增加,特征空间呈指数倍增长,样本密度急剧减小,样本稀疏。
45.当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。
46.相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
47.增加神经元的个数,无法提高神经网络的训练精度。
48.决策树内部结点表示一个类,叶结点表示一个特征或属性
49.由不同的距离度量所确定的最近邻点是不同的
50.K-means算法采用贪心策略,通过迭代优化来近似求解。
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A.最小化方差#最小化标准差
B.最小化残差平方和
C.最大化信息熵
2.变量之间的关系一般可以分为确定性关系与()。
A.非确定性关系
B.线性关系
C.函数关系
D.相关关系
3.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
A.4
B.5
C.6
D.7
4.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
5.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
6.聚类的最简单最基本方法是()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
7.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值
B.缺失值
C.不一致的值
D.重复值
8.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
9.K-means聚类适用的数据类型是()。
A.数值型数据
B.字符型数据
C.语音数据
D.所有数据
10.在回归分析中,自变量为(),因变量为()。
A.离散型变量,离散型变量
B.连续型变量,离散型变量
C.离散型变量,连续型变量
D.连续型变量,连续型变量
11.对于k近邻法,下列说法错误的是()。
A.不具有显式的学习过程
B.适用于多分类任务
C.k值越大,分类效果越好
D.通常采用多数表决的分类决策规则
12.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
A.越小
B.越大
C.无关
D.不确定
13.以下哪些不是缺失值的影响()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
14.聚类是一种()。
A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
15.层次聚类对给定的数据进行()的分解。
A.聚合
B.层次
C.分拆
D.复制
16.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
17.特征选择的四个步骤中不包括()
A.子集产生
B.子集评估
C.子集搜索
D.子集验证
18.Apriori算法的加速过程依赖于以下哪个策略( )
A.抽样
B.剪枝
C.缓冲
D.并行
19.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A.1,线性
B.2,线性
C.1,非线性
D.2,非线性
20.实体识别的常见形式()
A.同名异义
B.异名同义
C.单位不统一
D.属性不同
二、多选题 (共 10 道试题,共 20 分)
21.下列选项是BFR的对象是()
A.废弃集
B.临时集
C.压缩集
D.留存集
22.什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
23.关联规则的评价度量主要有:()。
A.支持度
B.置信度
C.准确率
D.错误率
24.数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
25.一元回归参数估计的参数求解方法有()。
A.最大似然法
B.距估计法
C.最小二乘法
D.欧式距离法
26.下面例子属于分类的是()
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
27.多层感知机的学习过程包含()。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
28.相关性的分类,按照相关的方向可以分为()。
A.正相关
B.负相关
C.左相关
D.右相关
29.K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
30.对于多层感知机,()层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
三、判断题 (共 20 道试题,共 40 分)
31.如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。
32.k值增大意味着整体模型变得复杂。
33.信息熵越小,样本结合的纯度越低
34.关联规则可以用枚举的方法产生。
35.对于项集来说,置信度没有意义。
36.多元线性回归模型中,标准化偏回归系数没有单位。
37.在一元线性回归中,输入只包含一个单独的特征。
38.当特征为离散型时,可以使用信息增益作为评价统计量。
39.给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
40.赤池信息准则是衡量统计模型拟合优良性的一种标准。
41.特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
42.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。
43.数据科学可以回答复杂的问题,发现世界中隐藏的联系并预测和指导未来。
44.随着特征维数的增加,特征空间呈指数倍增长,样本密度急剧减小,样本稀疏。
45.当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。
46.相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
47.增加神经元的个数,无法提高神经网络的训练精度。
48.决策树内部结点表示一个类,叶结点表示一个特征或属性
49.由不同的距离度量所确定的最近邻点是不同的
50.K-means算法采用贪心策略,通过迭代优化来近似求解。