云计算

单选题

从研究现状上看，下面不属于云计算特点的是( )

私有性
弹性化
按需提供服务
虚拟化

与网格计算相比，不属于云计算特征的是（　　　）。

资源高度共享
适合紧耦合科学计算
支持虚拟机
适用于商业领域

大数据的4V特性不包括( )

多样性
高效性
高速性
价值性

解析：规模性、高速性、多样性、价值性

在许多情况下，____能够达到99.999%的可用性。

虚拟化
分布式
并行计算
集群

下列不属于文件系统（GFS）中主服务器节点任务的是（）

存储元数据
文件系统目录管理
与数据块服务器进行周期性通信
向客户端传输数据

下面关于Beowulf集群说法错误的是（）

目前Beowulf系统性能的主要瓶颈是带宽
Beowulf系统是面向数据时代的产物
Beowulf系统往往采用廉价、普通的硬件和软件
现在很多的集群系统都是Beowulf集群的衍生物

解析：Beowulf系统这种诞生于面向计算时代的产物

与开源云计算系统Hapoop HDFS相对应的商用云计算软件系统是( )

Google GFS
Google MapReduce
Google BigTable
Google Chubby

解析：HDFS 模块主要是提供分布式存储服务。GFS全称（Google File System）谷歌开发的一个大型的分布式文件系统

补充:

MapReduce: 分布式数据处理

BigTable：分布式结构化数据表

Chubby：分布式锁服务

Megastore：分布式存储系统

Dapper：大规模分布式系统的监控基础框架

Dremel：海量数据的交互式分析工具

PowerDril：内存大数据分析系统

射频识别系统中真正的数据载体是（　　）

读写器
电子标签
天线
中间件

下面不属于Google云计算平台技术架构的是（）

并行数据处理MapReduce
分布式锁Chubby
结构化数据表BigTable
弹性云计算EC2

解析：弹性云计算E2是亚马逊（AWS）公司的

( )提出了第四范式，被誉为“大数据之父”。

西摩-克雷
约翰-麦卡锡
吉姆-格雷
蒂姆-伯纳斯-李

解析：

西摩·克雷(Seymour　Cray)：超级计算机之父

约翰-麦卡锡：人工智能之父

蒂姆-伯纳斯-李：互联网之父

吉姆-格雷：大数据之父

下面属于计算密集型集群计算系统的是 ()

MPI
Storm
HPCC
Rapid Miner

解析:

Storm:是由BackType开发的实时处理系统

HPCC:一般指高性能计算集群。

RapidMiner:是世界领先的数据挖掘解决方案

MPI:在跨分布式内存运行并行程序的多台计算机之间交换消息的标准化方法

多选题

某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于哪类问题（）

大数据
数据挖掘
云计算
物联网

对虚拟化技术的理解正确的选项是（）

虚拟化是资源的逻辑表示，它不受物理限制的约束
资源可以是各种硬件资源
虚拟化层隐藏了替代资源如何转换成真正资源的内部细节
对使用虚拟化资源的人，就如真实的资源同样的访问方式

集群技术适用于以下场合 ( )

大规模计算如基因数据分析、天气预报、石油勘测等需要极高的计算性能
应用规模的开站使单个服务器难以承担负载
不断增长的需求需要硬件有灵活的可扩展性
关键业务需要可靠的容错机制

下面有关SSI（单一系统映射）的含义描述正确的有____。

单一控制
单一系统
对称性
位置不透明

下列关于GFS的优势描述正确的是（）

对大文件数据快速存取
易扩展
容错能力强
相对HDFS较稳定

下面哪些程序通常不与DataNode在同一个节点启动？（）

NameNode
Master
TaskTracker
JobTracker

解析：

1. DataNode是一个在HDFS实例中单独机器上运行的软件节点。通常Hadoop集群包含一个NameNode和大量DataNode。

2. JobTracker是一个后台服务进程，启动之后，会一直监听并接收来自各个TaskTracker发送的心跳信息，包括资源使用情况和任务运行情况等信息。

3. TaskTracker是JobTracker和Task之间的桥梁

注意：

JobTracker 对应于 NameNode
TaskTracker 对应于 DataNode
DataNode 和NameNode 是针对数据存放来而言的
JobTracker和TaskTracker是对于MapReduce执行而言的

Hadoop在设计时，通常会有以下一些假设：（）

文件不会频繁写入和修改
服务器通常比较稳定
数据是海量的
处理海量数据时，移动计算比移动数据高效

Google不缓存数据的原因是（）

OFS的文件操作大部分是流式读写
维护缓存与实际数据之间的一致性太复杂
不存在大量的重复读写
数据块服务器上的数据存储使用本地文件系统

单一主服务器(Master)解决性能瓶颈的方法是 ( )

减少其在数据存储中的参与程序
不适用Master读取数据
客户端缓存元数据
采用大尺寸的数据块

云计算的主要技术路线分为资源聚合型和资源切分型，下面属于资源切分型的典型系统有 ()

MPI
Hadoop
KVM
VMware

解析：

虚拟机技术是资源切分技术，集群是资源整合技术

前面MPI和Hadoop都属于集群，后面的KVM和VMware属于虚拟机技术,本题问的是资源切分系统所以选后者

填空题

NoSQL数据库包括列式存储数据库、键值数据库、文档型数据库和图形数据库。其中，MongoDB属于文档型数据库；BigTable属于列式存储型数据库。
大数据处理的基本流程包括：数据抽取与集成、数据分析和数据解释。
对提供者而言，云计算可以分三种部署模式，即公有云、私有云和混合云。
系统虚拟化可分为服务器虚拟化、桌面虚拟化、网络虚拟化。
常用的虚拟化软件系统有KVM、VMware Workstation、VirtualBox。
Popek和Goldberg指出：虚拟机具有统一性、高效性、可控性。
常见集群技术一般包括三类：高可用集群、高扩展/负载均衡集群、高性能计算集群。
Google文件系统(GFS)中每个数据块默认是在3个数据块服务器上冗余。
GFS是一个高度容错网络文件系统，主要由一个master和众多chunkserver构成。
谷歌技术有三宝，包括GFS、MapReduce以及BigTable。
HDFS在对一个文件进行存储时有两个重要的策略：一个是分块策略，一个是副本策略。
Google文件系统（GFS）分块默认的块大小是 64MB。

判断题

最早预言“今后计算机将会作为公共设施提供给公众”的科学家是约翰·麦卡锡。√
物联网的产业链可以分为标识、感知、处理和信息传送4个环节。√
Amazon EC2，IBM Blue Cloud，Force.com都属于SaaS类的云计算服务。×

解析： Amazon EC2属于IaaS服务

Beowulf集群的应用目标主要是针对计算，而HPCC集群的设计目的是面向海量数据处理。√
网格计算是一种基于计算切分型的分布式系统，MPI则是一种混合型分布式系统。×

解析：MPI（Message Passing Interface），是开发者们在高性能计算程序中，用于在参与计算的不同CPU、或服务器节点之间进行消息传递的一组规范或接口

Hadoop系统在文件分割时是基于记录的，而HPCC系统文件分割时是基于数据块的。×

Hadoop:HDFS的分布式文件系统是基于数据块的
HPCC:Thor的分布式文件系统是面向记录的

NameNode 负责管理 metadata，client 端每次读写请求，它都会从内存中读取或者会写入 metadata 信息并反馈 client 端。√
MapReduce的思想来源是Java语言。×

解析：MapReuce的核心思想是“分而治之”。

云计算机技术领域存在两个主要技术路线，一个是基于虚拟机技术的云计算资源整合技术；另一个是基于集群技术的云计算资源切分技术。×

解析：虚拟机技术是资源切分技术，集群是资源整合技术。

大题

1.一致性哈希算法（第三章）

1997年David Karger提出了一致性哈希算法来定位数据，实现了云计算系统在节点变化时的单调性，实现了较小的数据迁移代价。
对于系统中的每个设备结点，为其分配一个随机的标记，这些标记可以构成一个哈希环。在存储数据时，计算出数据中键的哈希值，将其存放到哈希环顺时针方向上第一个标记大于或等于键的哈希值得设备节点上。
简述：构建哈希环->计算key值->哈希环上找大于等于设备节点。

改进的一致性哈希算法

一致性哈希算法在设备节点数量较少的情况下，有可能造成环上节点的不均匀；并且没有考虑哈希环上不同设备节点的性能差异。
为了解决这些问题，Dynamo引入了虚拟节点的概念。将一个物理节点分成多个虚拟节点，每个虚拟节点的能力基本相当，并随机分布在哈希环上。

一致性哈希算法实现过程

对Key值首先用MD5算法将其变换为一个长度32位的十六进制数值，再用这个数值对2^32^取模，将其映射到由2^32^个值构成的环状哈希空间，对节点也以相同的方法映射到环状哈希空间，最后Key值会在环状哈希空间中找到大于它的最小的节点值作为路由值。
简述：key值进行MD5转换 -> 取模得出哈希值 -> 映射环状空间 -> 对节点也进行相同方法映射 -> key值在映射的空间找到大于等于它的最小节点。

2.解决系统瓶颈（第六章）

利用免费的集群软件，在保留原有的硬件投资基础上，添加几台新的PC设备，组建负载均衡集群系统。

安装Linux或者BSD操作系统
安装核心程序和集群软件包
配置负载均衡集群系统
配置集群服务软件
设定数据中心
写一份报告。告诉你的BOSS你不但顺利解决了站点的瓶颈问题，而且大大大减轻了他花钱升级的痛苦

3.SQL Server 和 SQL Azure相同和不相同（第四章）

相同：

SQL Server 和 SQL Azure 都是关系型数据库，SQL Azure是基于SQL Server技术构建的。
都可以通过T-SQL语法进行增删改查。

不相同：

SQL Azure云数据库是微软提供的服务，相对于SQL Server而言，我们不用考虑如何搭建它，直接去Azure平台找到它的文档直接用即可，微软数据中心自会考虑负载均衡和高可用性等。
SQL Azure 不能使用 SQL Server的备份机制，在SQL Server中所有数据都是自动备份的。
SQL Server 一些依赖物理配置参数的 T-SQL语句，并不适用SQL Azure。
SQL Azure 不支持 SQL Server 的所有特征和数据类型。

4.云中虚拟技术（第七章）

虚拟化技术：服务器虚拟化、存储虚拟化、网络虚拟化、桌面虚拟化

数据中心的虚拟化：通过服务器虚拟化、存储虚拟化、网络虚拟化实现的。
系统虚拟化：服务器虚拟化、桌面虚拟化、网络虚拟化。注意以上区别

服务器虚拟化：寄居虚拟化和裸机虚拟化两种分类方法。
- 寄居虚拟化：一个主操作系统负责多个虚拟机之间的的分配资源，并且让这些服务器彼此独立。虽然系统虚拟化灵活比较差但速度性能比较高，操作系统层虚拟化，所有服务器其必须运行同一系统。
- 裸机虚拟化：直接将VMM安装在硬件设备之上，VMM实现虚拟资源到物理资源的映射，模拟特权指令执行。能虚拟多个硬件系统，但是由于x86架构原因，有的特权指令不能产生自陷，需要转换从而产生性能损失

5.新摩尔定律 (第一章)

每18个月全球新增信息量是计算机有史以来全部信息量的总和。

6.NoSQL数据库分类（第二章）

NoSQL类型分列式存储数据库、键值数据库、文档型数据库和图形数据库。
复习不完了没时间了！懒狗直接上原图了!!!!!

7.非关系型数据库与传统关系数据库的区别（第三章）

数据模型：关系数据库对数据有严格的约束，非关系型数据库可以使用任意数据类型。
数据处理：关系数据库满足CAP原则的C和A，非关系型数据库满足CAP原则的A和P。
接口层：关系数据库都是以SQL语言对数据进行访问，非关系型大多是API来实现。

Google App Engine提供哪些服务？(第二章)

图像操作API
邮件API
分布式内存数据缓存API
用户API
数据库API

相对于行存储，列存储有哪些优点？（第二章）

看上面的NoSQL分类的列读数据库

当前主流分布式文件有哪些？（第二章随便看看）

目前主流的分布式文件系统有：GFS、HDFS、Ceph、Lustre、MogileFS、MooseFS、FastDFS、TFS、GridFS等。

简单存储服务S3 （第三章）

简单存储服务架构在Dynamo之上，用于提供任意类型文件的临时或永久性存储。
基本结构：桶（Bucket）和对象(Object)。
1. 桶：是用于存储对象的容器，其作用类似于文件夹，但桶不能被嵌套。
2. 对象：对象是S3的基本存储单元，主要由数据和元数据组成。

云计算服务类型 (第一章)

基础设施作为服务(Iaas)
平台作为服务(Paas)
软件作为服务(Saas)

大数据具有4V+1C的特征（第一章）

数据量大(Volume)
多样(Variety)
快速(Velocity)
价值密度低(Value)
复杂度(Complexity)

目录CONTENT

云计算(赌狗指南)

云计算

单选题

多选题

填空题

判断题