大数据算法习题答案

自己整理，若是侵权请私信。

6.1
1.为数T的每个结点标上子树大小的I/O复杂度为()。O (sort(N))
2.前序计数的I/O复杂度为()。O (sort(N))
3.对给定顶点邻接链表T,其一个欧拉回路可以以()IO复杂性求得。O(scan(N))IO
4.外存算法最坏情况的I/O数位Ω(N)。() 错误
5.图中的独立集是指图当中点的集合,其任意两点之间不存在边。()√
6.2
1.查找规模为N的表L中,每个独立集(MIS)的大小至少为()。n/3
2.时间前向的处理方法是按照()来访问边。拓扑序
3.求最大独立集的基本思想是使用贪心法。()正确
6.3
1.图算法包含三种计数,其中将图问题表示为有向无环图的估值问题的是()
时间前向处理
2.半外存算法是假设()
顶点放在内存中,边在外面
3.图的连通性算法可扩增为求图G最小生成树(MST)的算法。()
√
4.在求最小生成树时,压缩后图中某条边的权值等于该边代表的所有边的权值最大值。()
错误
7.1
1.MapReduce是由()开发的分布式编程模型
Google
2.在实现MapReduce程序时,需要注意的事项不包括()
避免通信
3.MapReduce的执行框架处理的内容包括()
进行错误处理将中间数据进行聚集、排序或洗牌数据分布调度
4.理想的可扩展性有()
数据加倍,运行时间加倍资源加倍,运行时间减半
5.Map()和Reduce()两个函数不能够并行运行。()
错误
7.2
1.在版本1的字数统计中，在Map里使用了一个数组H，其作用是为每一个出现的单词作()
基数
7.3
1.大部分时候reducer不能用作combiner。()
正确
2.combiner的运行次数可能有多次
正确
7.4
1.关于单词共现矩阵的计算,说法正确的是()
是一种测量语义距离的方法语义距离可用于许多语言处理任务计算文本集合中词的共现矩阵
2.用单词共现矩阵解决大规模计数问题的基本方法是()
Reducer聚合部分计数Mapper生成部分计数
3.条纹法”的优点有()
对key-value对的排序和洗牌少得多能更好地利用combiner
4.在“词对法”中,每个mapper处理一个句子。()
正确
5.“词对法”的缺点是不易实现,排序和洗牌代价高。()
错误
6.f(B|A)词对法必须确定所有a被传递到同一个combiner。()
错误
8.1
1.在repartition join的改进中,说法错误的是()。
Map函数的输出键作为连接键
2.用MR进行多重集相似连接算法的常见计算包括()。
合取函数析取函数单元函数
3.自然连接是从两个关系的笛卡尔积中选取给定属性间满足一定条件的元组。()
错误
4.等值连接不必在结果中去掉重复的属性。()
正确
8.2
1.在迭代MapReduce中,reduce的输出必须和map的输入兼容。()
正确
2.“推荐好友”是图算法在社交网络中的一种实际用例。()
正确
8.3
1.找到一个稠密图的最小生成树的算法易于并行化的原因是每个子图的()可以被并行计算。
最小生成树
2.基于路径的算法的例子不包括()。
分布式不动点运算
3.在基于路径的算法中,边的标记包括()。
相似性代价距离
4.Dijkstra算法需要并行化。()
错误
9.1
1.缓存迭代的方法是()。
在Reducer后加入输出缓存在Reducer前加入输入缓存在Mapper前加入输入缓存
2.MapReduce是一种非递归描述性语言的通用运行平台。()
正确
3.Reducer输入缓存的条件是使用静态划分方法,即意味着没有新的结点。()
正确
9.2
1.关于并行节点计算,下列选项中关于节点叙述不准确的是()。
没有额外工作要做时继续迭代
2.Pregel系统中Master的作用不包括()
与worker交流

3.并行结点计算的终止条件是()
所有顶点同时变为非活跃状态没有信息传递
4.用Pregel计算子图同构问题,其三个步骤是()
搜索查询分解Join
5.Pregel的编程形式,在执行计算的机器上每一阶段都利用整个图的全部状态。()
错误
10.1
1.众包通过一系列的机制和方法来指导和协调()的行为,从而达到目的。
群体
2.外包与众包的区别在于众包的参与者数量大且不固定的。()
正确
3.Wikipedia是众包案例的一种最成功的应用之一。()
正确
4.众包极大程度地使用了人本计算,因此它基本上等同于人本计算。()
错误
10.2
1.人脸识别是利用众包改进图像()的例子。
搜索
2.下列属于众包应用的例子有()
数据库查询验证码机器翻译图像搜索
3.众包技术应用于广告中的情形之一是区分关键词与广告的相关程度。()
正确
4.目前众包技术已经可以判断两幅画在艺术风格上是否一致。()
×
10.3
1.众包中质量控制/数据质量要考虑的问题不包括()。
界面和交互设计
2.众包中的参与者包括()
平台请求者工人
3.在人机交互中从用户获取输入的方式有()。
快速原型可用性测试认知走查调查
4.众包中工人的回报是多样的。()
正确
5.难以核实主观任务是资格测试的缺点之一。()
正确
6.任务分配的拉方法是指系统采取完全的控制将制定的任务分配给工人。()
×
10.4
1.采用把大连通分量划分成高度连接的小连通分量基本思路的方法是()
双层法
2.用机器完成众包的优势有()。
省钱省时
3.目前众包技术完全由计算机来完成。()
错误
4.基于簇的HIT生成问题的优化目标是生成最小数目基于簇的HIT。()
√
第六讲大数据可视化方法
1.下面属于映射数据到新的空间的方法是
傅立叶变换
2.下列不是专门用于可视化时间空间数据技术的是（）
饼图
3.可视分析的运行过程可看做是( )的循环过程
数据–>知识–>数据
4.散点图矩阵通过（）坐标系中的一组点来展示变量之间的关系
二维
5.关于正态分布,下列说法错误的是()
正态分布的偏度为0，峰度为1
6.（）适用于多维数据，且每个维度必须可以排序。
雷达图
7.下面哪些属于可视化高维数据技术？
平行坐标系星形坐标矩阵
8.下列属于线性的降维方法有（）
LDAPCA
9.可视化技术支持计算机辅助数据认知的三个基本阶段（）
数据分析数据操作
10.数据可视化可分为哪三类（）
科学可视化可视分析学信息可视化
11.数据可视化的5个基本特征易懂性、专业性和
片面性多维性必然性
12.常用的高维数据可视化的数据变换的线性方法有
多维尺度分析(MDS)非负矩阵分解(NMF)主成分分析(PCA)
13.常用的高维数据可视化的数据变换的非线性方法有（）
ISOMAP局部线性嵌套(LLE)
14.数据可视化的流程包括
编码层设计编码和交互方法抽象层抽象相应数据类型的操作问题刻画层概括现实生活中用户遇到的问题实现层实现算法和交互
15.图挖掘技术在社会网络分析中扮演了重要的角色
√
16.可视化技术对于分析的数据类型通常不是专用性的。
×
17.科学可视化最初被称为“科学计算之中的可视化”
√
18.鱼眼视图属于焦点+上下文技术可视化交互方法
√
12.1
1.人工神经网络的英文（）
ANN
2.学习过程由信号的正向传播与误差的反向传播两个过程组成，由于多层前馈网络的训练经常采用误差反向传播算法，因此人们将多层前馈网络称为
BP
3.神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为（）
激励函数
4.人工神经网络是模拟（）进行信息处理的一种数学模型
生物神经网络
5.神经网络基本结构
神经元
6.神经网络的三层感知器除了输入层、输出层，还有（）
隐层
7.常用的训练方式，除了监督学习和无监督学习，还有
强化学习
8.单个神经元的动作特征是（）
以上都是
9.神经网络发展大致经历过（）个阶段
4
10.人工神经网络的基本特征有（）
非局限性非凸性非线性非常定性
11.根据链接的拓扑结构，神经网络模型可以分为哪两种？（）
前向网络反馈网络
12.下面属于BP的优点的是（）
自学习和自适应能力泛化能力容错能力非线性映射能力
13.下面属于BP的缺点的是（）
BP神经网络算法的收敛速度慢BP神经网络结果选择不一
14.重要的人工神经网络算法包括（）
Hopfield网络自组织映射（Self-Organizing Map, SOM）反向传递（Back Propagation）感知器神经网络（Perceptron Neural Network）
15.以下关于神经网络说法正确的有（）
神经网络可以实现非线性分类神经网络可以实现线性分类
16.人工神经网络可以看做由哪三种基本元素组成（）
一个加法器一个连接一个激励函数
17.BP网络学习过程的四个部分（）
输入模式顺传播输出误差逆传播学习结果判别循环记忆训练

13章
1.神经网络由许多神经元（Neuron）组成，每个神经元接受一个输入，处理它并给出一个输出。下列关于神经元的陈述中正确的是（）
上述都对
2.在一个神经网络里，知道每一个神经元的权重和偏差是最重要的一步。如果以某种方法知道了神经元准确的权重和偏差，你就可以近似任何函数。实现这个最佳的办法是()
赋予一个初始值，通过检查跟最佳值的差值，然后迭代更新权重

3.什么情况下神经网络模型被称为深度学习模型？()
加入更多层，使神经网络的深度增加
4.下列哪一种操作实现了和神经网络中Dropout类似的效果？
Bagging
5.下列哪哪一项在神经网络中引入了非线性？()
修正线性单元（ReLU）
6.下列哪项关于模型能力（model capacity）的描述是正确的？（指模型能近似复杂函数的能力）()
隐层层数增加，模型能力增加
7.下列哪一种架构有反馈连接？()
循环神经网络
8.假设你需要改变参数来最小化代价函数（cost function），可以使用下列哪项技术？
以上任意一种
9.在神经网络中，以下哪种技术用于解决过拟合？（）
Dropout正则化
10.下列哪些神经网络结构会发生权重共享？
循环神经网络卷积神经网络
11.当在卷积神经网络中添加池化层(pooling layer)时，变换的不变性保持稳定，这样的理解是否正确？
√
12.增大卷积核的大小必然会提高卷积神经网络的性能
×
13.卷积神经网络可以对一个输入完成不同种类的变换（旋转或缩放）。
错
14.如果增加多层感知机的隐藏层层数，分类误差便会减小
错
15.可以用神经网络对函数(y=1/x)建模
对
16.在监督学习任务中，输出层中的神经元的数量应该与类的数量（其中类的数量大于2）匹配
错
17.Y = ax^2 + bx + c（二次多项式）这个方程可以用具有线性阈值的单个隐层的神经网络表示
错

原文链接：https://blog.csdn.net/Lovemyse1f/article/details/105620218