南开大学21秋《数据科学导论》平时作业2-001答案参考1. 云存储中用户需要按需付费并使用存储服务 )T.对F.错参考答案:T2. 函数体现的是代码复用和模块化设计思想 )A.正确B.错误参考答案:A3. 简述数据可视化的流程和步骤参考答案:数据可视化是对数据的综合运用,其操作包括数据获取、数据处理、可视化模式和可视化应用4个步骤 1)数据获取 数据获取的形式多种多样,大致可以分为主动式和被动式两种主动式获取是以明确的数据需求为目的,利用相关技术手段主动采集相关数据,如卫星影像、测绘工程等;被动式获取是以数据平台为基础,由数据平台的活动者提供数据来源,如电子商务网站、网络论坛等 2)数据处理 数据处理是指对原始的数据进行分析、预处理和计算等步骤数据处理的目标是保证数据的准确性、可用性等 3)可视化模式 可视化模式是数据的一种特殊展现形式,常见的可视化模式有标签云、序列分析、网络结构、电子地图等可视化模式的选取决定了可视化方案的雏形 4)可视化应用 可视化应用主要根据用户的主观需求展开,最主要的应用方式是用来观察和展示,通过观察和人脑分析进行推理和认知,辅助人们发现新知识或者得到新结论。
可视化界面也可以帮助人们进行人与数据的交互,辅助人们完成对数据的迭代计算,通过若干步,数据的计算实验,生产系列化的可视化成果4. 利用K近邻法进行分类时,k值过小容易发生过拟合现象 )利用K近邻法进行分类时,k值过小容易发生过拟合现象 )A.正确B.错误参考答案:A5. 时空数据是指带有地理位置与时间标签的数据 )T.对F.错参考答案:T6. continue语句只结束本次循环,而不终止整个循环;break语句结束整个循环过程 )A.正确B.错误参考答案:A7. 交通数据涉及到交通车辆或者道路两旁安装的传感器生成和的数据集 )T.对F.错参考答案:T8. ECR系统由哪些部分组成的?ECR系统由哪些部分组成的?参考答案:ECR系统的基本结构包括两个部分,即基础设施和管理系统,其中,基础设施包括信息系统和物流系统,管理系统包括营销管理和组织革新9. 通过变量标准化计算得到的回归方程称为( )A.标准化回归方程B.标准化偏回归方程C.标准化自回归方程D.标准化多回归方程参考答案:A10. 大数据的最显著特征是( )A.数据规模大B.数据类型多样C.数据处理速度快D.数据价值密度高参考答案:A11. 利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。
)A.正确B.错误参考答案:B12. 以下选项中,不是Python对文件的打开模式的是( )A.‘c’B.‘r+’C.‘w’D.‘r’参考答案:A13. 任何程序中都必须要有分支结构或循环结构 )A.正确B.错误参考答案:B14. 关联规则的评价度量主要有( )A.支持度B.置信度C.准确率D.错误率参考答案:AB15. 以下哪一项不是特征工程的子问题?( )A.特征创建B.特征提取C.特征选择D.特征识别参考答案:D16. 在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用( )A.越小B.越大C.无关D.不确定参考答案:B17. 数据变换的常用方法有( ),( ),( ),( )A.中心化变换B.极差规格化变换C.标准化变换D.对数变换参考答案:ABCD18. Jaccard系数只关心个体间共同具有的特征是否一致这个问题 )A.正确B.错误参考答案:A19. 以下哪一项不是特征选择常见的方法?( )A.过滤式B.封装式C.嵌入式D.开放式参考答案:D20. 列表(list),集合(set),和元组(tuple)都是序列数据类型。
)A.正确B.错误参考答案:B21. k近邻法的基本要素包括( )A.距离度量B.k值的选择C.样本大小D.分类决策规则参考答案:ABD22. 关联规则可以用枚举的方法产生 )A.正确B.错误参考答案:A23. 下面Python关键字中,不用于表示分支结构的是( )A.elseB.ifC.elseifD.elif参考答案:C24. 以下程序语句中,哪个是正确利用切片语句取出字符串s=“pi=3.1415926”中的所有数字部分?( )A.s[3∶-1]B.s[3∶11]C.s[4∶-1]D.s[3∶12]参考答案:D25. 大数据带来的挑战有哪些( )A.会导致数据盲点B.危及个人隐私C.造成群体歧视D.产生庞大能耗参考答案:ABCD26. uBFR算法所使用数据中的簇在不同坐标下的标准差有所不同 )A.正确B.错误参考答案:A27. 在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或( )A.最优回归线B.最优分布线C.最优预测线D.最佳分布线参考答案:A28. 基于大数据的临床决策支持系统的架构包括( )A.支撑层B.大数据分析层C.网络层D.应用层参考答案:ABD29. 编写HTML文件不能在哪个软件中编写?( )A.EditB.WordC.WPSD.Windows的画笔参考答案:D30. Python中操作集合时,可以使用哪个函数来对集合进行增加元素的操作?( )A.appendB.putC.popD.add参考答案:D31. 大话西游手游帮派贡献怎么得?大话西游手游帮派贡献怎么得?帮派贡献是非常重要的,如果你不重视他,那么属性肯定会比其他玩家少上一大截。
帮派贡献的获得方式还是比较多的1:帮派成员通过完成帮派任务获得2:参加帮派大战获得3:参加随机刷新的限时任务帮派强盗32. 什么情况下结点不用划分?( )A.当前结点所包含的样本全属于同一类别B.当前属性集为空,或是所有样本在所有属性上取值相同C.当前结点包含的样本集为空D.还有子集不能被基本正确分类参考答案:ABC33. Python中,字典是一个键值对的集合,字典以键为索引,一个键只对应一个值 )A.正确B.错误参考答案:A34. 关于函数,以下描述错误的是( )A.函数能完成特定的功能,对函数的使用不需要了解函数内部实现原理,只要了解函数的输入输出方式即可B.使用函数的主要目的是降低编程难度和代码重用C.函数是一段具有特定功能的、可重用的语句组D.Python中使用del关键字定义一个函数参考答案:D35. 关于网络广告付费模式,以下关于PPC解释正确的是( )A:按行动付费B:按点击付费C:按显示付费D:按关于网络广告付费模式,以下关于PPC解释正确的是( )A:按行动付费B:按点击付费C:按显示付费D:按销售付费答案:B36. 下面例子属于分类的是( )A.检测图像中是否有人脸出现B.对客户按照贷款风险大小进行分类C.识别手写的数字D.估计商场客流量参考答案:ABC37. 集中趋势能够表明在一定条件下数据的独特性质与差异。
)A.正确B.错误参考答案:B38. 主流分布式计算平台有( )A.googleB.IBMC.baiduD.Amazon参考答案:ABD39. 以下选项中,不是Python对文件的打开模式的是( )A.c'B.'r+'C.'w'D.'r'参考答案:A40. 发现满足最小支持度阈值的所有项集,这些项集被称为频繁项集 )T.对F.错参考答案:T41. 网民在搜索引擎输入关键词后,搜索引擎会返回的三大类相关信息是( )A:搜索引擎检索库中相关的网民在搜索引擎输入关键词后,搜索引擎会返回的三大类相关信息是( )A:搜索引擎检索库中相关的信息B:付费的推广信息C:开放平台信息D:网盟推广信息答案:ABC42. 手游王者荣耀三行情书征集活动到本月几日结束?三行情书征集活动到本月几日结束?3月14日结束活动时间:3月2日~3月14日活动主题:《王者峡谷三行情书》征集活动43. 层次方法可以分为( )A.K均值算法B.K中心点算法C.凝聚法D.分裂法参考答案:CD44. 数据隐私和安全是大数据发展面临的挑战 )T.对F.错参考答案:T45. 数据科学运用科学方法分析数据,位于几个学科的交叉点并利用领域特定的知识,使大数据的分析成为可能。
)A.正确B.错误参考答案:A46. MapReduce中的Map和Reduce函数使用( )进行输入输出A.key/value对B.随机数值C.其他计算结果参考答案:A47. 局部变量指在函数内部使用的变量,当函数退出时,变量依然存在,下次函数调用时可以继续使用 )A.正确B.错误参考答案:B48. 一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择 )A.正确B.错误参考答案:A49. 弹性是指有容错的机制,若一个RDD分片去失,Spark可以根据粗粒度的日志数据更新记录的信息重构它 )T.对F.错参考答案:T50. 一元回归参数估计的参数求解方法有( )A.最大似然法B.距估计法C.最小二乘法D.欧式距离法参考答案:ABC。