Spark已经取代Hadoop成为最活跃的开源Da数据项目。但是,在选择大型数据框架时,企业不应厚此薄彼。著名专家BernardMarr在一篇文章中分析了Spark和Hadoop的异同。Hadoop和Spark都是big 数据框架,都提供了一些工具来执行常见的big 数据任务,但恰恰,它们执行的是不同的任务。虽然Spark据说在某些情况下比Hadoop快100倍,但是它没有分布式存储系统,而分布式存储是很多大数据 项目的基础,可以在几乎无限的普通电脑的硬盘上存储PB级数据 sets。还提供了很好的扩展性,只需要随着数据 set的增加而增加硬盘。所以Spark需要一个第三方分布式存储。正是因为这个原因,很多大数据 项目都在Hadoop上安装了Spark,这样,Spark的高级分析应用就可以使用数据存储在HDFS。与Hadoop相比,Spark真正的优势在于速度。Spark的大部分操作都在内存中,Hadoop的MapReduce系统会下载。
在8、如何搭建基于Hadoop的大 数据平台
Hadoop中添加多个数据集合的方法有很多。MapReduce在Map和Reduce之间提供了数据连接。这些连接是非常特殊的连接,并且可能是非常昂贵的操作。猪和蜂巢也有同样的能力申请连接多个数据套。Pig提供复制连接、合并连接和skewedjoin连接,Hive提供map连接和完整外部连接给analyze 数据。
至于分析Hadoop中大量的数据,Anoop指出,通常情况下,在big 数据 Hadoop世界中,有些问题可能并不复杂,解决方案也很直接,但挑战是数据quantity。在这种情况下,需要不同的解决方案来解决问题。一些分析任务是从日志文件中统计确定的id的数量,重建特定日期范围内存储的数据以及对网民进行排名等。所有这些任务都可以通过Hadoop中的各种工具和技术来解决,比如MapReduce、Hive、Pig、Giraph和Mahout。
9、百亿级实时大 数据分析 项目,为什么不用Hadoop1。Hadoop集群的可扩展性是其主要特点之一。Hadoop可以扩展到上千个节点,对数据的需求非常大。2.Hadoop的成本是另一大优势,因为Hadoop是开源。目前流行去IOE的趋势,低成本的Hadoop也是一大推手。3.Hadoop生态系统是活跃的,其外围是开源 项目 rich,HBase,
10、在大 数据平台 hadoop可以做哪些应用Hadoop是一个适合大型数据的分布式存储和处理平台,它是开源的一个框架。1.搜索引擎(Hadoop的初衷是为大规模网页快速建立索引),2、大型数据存储,采用Hadoop的分布式存储能力,如数据备份、数据仓库等。3、大型数据处理,利用Hadoop的分布式处理能力,如数据挖掘、数据分析等,4.Hadoop是一个分布式开源框架,对于分布式计算有很大的参考价值。