Java程序员该如何转型大数据方向?详解

Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。 hadoop本身是用来存储和处理数据的...

初次接触Hadoop详解

     Hadoop的核心就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduc...

程序员必须要知道的Hadoop的12个事实详解

事实1:Hadoop是由多个产品组成的。 人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的产品共同组成。 Russom说:“Hadoop是一系列开源产品的组合,这些产品都是Apache软件基金会的项目...

Hadoop的核心机制详细解析详解

知其然,知其所以然。要想深入学习和理解Hadoop的核心机制,还要从MapReduce和HDFS的原理入手。 MapReduce的“大事化小” 作为Google提出的架构,MapReduce通过Map(映射)和Reduce(化简)来...

如何使用Hadoop进入大数据库时代?详解

互联网厂商将Hadoop连接器软件视为“大数据管理”战略的重要一环,但是并不是只有主流的数据库厂商在做这件事。像数据仓库提供商Teradata以及惠普公司的Vertica都推出了类似的Hadoop产品,也不乏Informatica、...

互联网公司如何利用云计算平台Hadoop?详解

如果你是世界上广大Hadoop用户的一员,你肯定知道Google曾经靠着分布式计算技术(Hadoop),在搜索引擎和广告方面取得了举世瞩目的成就。现在的Hadoop不仅是当年的老二Yahoo的专用产品了,从Hadoop长长的用户名单...

了解Hadoop体系的强大工具组合详解

HDFS和MapReduce只是打造Hadoop平台最基本的核心套件,在Apache基金会的网站中还有其他的相关开源套件,共同组成了一个Hadoop体系(Hadoop Ecosystem)。 透过这些相关方案的延伸,开发人员就算不懂...

Splunk 和 Cloudera 的核心竞争力在哪里?详解

Splunk面向的是细分市场,分析Machine Log,并在上面集成了完整的专用模块。所有用例都是相对专门的领域,因此可以对这些进行专门优化。它的核心竞争力应该是领域知识和抽象,以及相关的优化和功能,而不是大数据。如果我没搞错的话,Sp...

关于大数据人人都需要知道的10个问题详解

1、云计算与大数据是什么关系? 云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决...

浅谈分布式文件系统发展详解

  目前的工业趋势表明,作为企业存储领域的一部分,分布式文件系统将会成为日益重要的技术并得到迅猛发展。   分布式文件系统体系结构将超越目前在NAS系统中广泛应用的单一文件系统体系结构。企业存储对分布式文件系统体系...