在线留言 注册 登录
热门搜索:形考答案免费答案奥鹏答案

南开25春学期(高起本:1809-2103、专升本/高起专:2103)《数据科学导论》在线作业【标准答案】

Time2025-04-16Hits浏览量: 8
有奥鹏院校所有作业、毕业论文,详情请咨询请添加QQ : 103092222或微信: xyzlfx100

25春学期(高起本:1809-2103、专升本/高起专:2103)《数据科学导论》在线作业-00001

试卷总分:100  得分:100

一、单选题 (共 20 道试题,共 40 分)

1.特征选择的四个步骤中不包括()

A.子集产生

B.子集评估

C.子集搜索

D.子集验证


2.以下哪一项不是特征工程的子问题()

A.特征创建

B.特征提取

C.特征选择

D.特征识别


3.手肘法的核心指标是()。

A.SES

B.SSE

C.RMSE

D.MSE


4.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。

A.4

B.5

C.6

D.7


5.以下属于关联分析的是( )

A.CPU性能预测

B.购物篮分析

C.自动判断鸢尾花类别

D.股票趋势建模


6.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。

A.1

B.2

C.3

D.4


7.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。

A.最小化方差#最小化标准差

B.最小化残差平方和

C.最大化信息熵


8.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()

A.异常值

B.缺失值

C.不一致的值

D.重复值


9.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。

A.最优回归线

B.最优分布线

C.最优预测线

D.最佳分布线


10.比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()

A.异常值

B.不一致的值

C.重复值

D.缺失值


11.以下哪个不是处理缺失值的方法()

A.删除记录

B.按照一定原则补充

C.不处理

D.随意填写


12.数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下()

A.普通值

B.异常值

C.不一致的值

D.重复值


13.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()

A.简单函数变换

B.规范化

C.属性构造

D.连续属性离散化


14.单层感知机拥有()层功能神经元。

A.一

B.二

C.三

D.四


15.下列两个变量之间的关系中,哪个是函数关系()。

A.人的性别和他的身高

B.人的工资与年龄

C.正方形的面积和边长

D.温度与湿度


16.实体识别的常见形式()

A.同名异义

B.异名同义

C.单位不统一

D.属性不同


17.以下哪一项不是特征选择常见的方法()

A.过滤式

B.封装式

C.嵌入式

D.开放式


18.实体识别属于以下哪个过程()

A.数据清洗

B.数据集成

C.数据规约

D.数据变换


19.单层感知机模型属于()模型。

A.二分类的线性分类模型

B.二分类的非线性分类模型

C.多分类的线性分类模型

D.多分类的非线性分类模型


20.只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。

A.计数属性

B.离散属性

C.非对称的二元属性#对称属性


二、多选题 (共 10 道试题,共 20 分)

21.距离度量中的距离可以是()

A.欧式距离

B.曼哈顿距离

C.Lp距离

D.Minkowski距离


22.聚类的主要方法有()。

A.划分聚类

B.层次聚类

C.密度聚类

D.距离聚类


23.层次聚类的方法是()

A.聚合方法

B.分拆方法

C.组合方法

D.比较方法


24.相关性的分类,按照相关的方向可以分为()。

A.正相关

B.负相关

C.左相关

D.右相关


25.K-means聚类中K值选取的方法是()。

A.密度分类法

B.手肘法

C.大腿法

D.随机选取


26.下列选项是BFR的对象是()

A.废弃集

B.临时集

C.压缩集

D.留存集


27.多层感知机的学习过程包含()。

A.信号的正向传播

B.信号的反向传播

C.误差的正向传播

D.误差的反向传播


28.一元回归参数估计的参数求解方法有()。

A.最大似然法

B.距估计法

C.最小二乘法

D.欧式距离法


29.数据科学具有哪些性质()

A.有效性

B.可用性

C.未预料

D.可理解


30.Apriori算法的计算复杂度受()影响。

A.支持度阈值

B.项数

C.事务数

D.事务平均宽度


三、判断题 (共 20 道试题,共 40 分)

31.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。


32.利用K近邻法进行分类时,k值过小容易发生过拟合现象。


33.集中趋势能够表明在一定条件下数据的独特性质与差异


34.赤池信息准则是衡量统计模型拟合优良性的一种标准。


35.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。


36.分拆方法是自底向上的方法。


37.方差过小的特征对数据的区分能力强


38.K-means聚类是发现给定数据集的K个簇的算法。


39.交叉表可以帮助人们发现变量之间的相互作用。


40.特征的信息增益越大,则其越不重要。


41.增加神经元的个数,无法提高神经网络的训练精度。


42.获取数据的方式有多种,可以从网页、测量、数据库、传统媒体、监控等等方式


43.子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。


44.使用SVD方法进行图像压缩不可以保留图像的重要特征。


45.多元线性回归模型中,标准化偏回归系数没有单位。


46.决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布


47.uBFR算法所使用数据中的簇在不同坐标下的标准差有所不同


48.关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。


49.神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。


50.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。


吐血推荐

奥鹏,国开形考,广开,电大在线,各省平台,新疆一体化,各类成人教育等学习。详情请咨询QQ : 103092222或微信: xyzlfx100

添加微信查看答案

南开25春学期(高起本:1809-2103、专升本/高起专:2103)《数据科学导论》在线作业【标准答案】_学优资料分享网

添加微信二维码,了解更多学习技巧,平 台作业、毕业论文完成时间友情提醒。。

合作洽谈

诚信为本,合作共赢

欢迎各大学习中心前来治谈;有意请联系我们

推荐作业

留言板
captcha
感谢留言
我们会尽快与您联系
关闭