Hadoop 学习总结之一:HDFS简介详解

一、HDFS的基本概念 1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块...

从一般分布式设计看HDFS设计思想与架构详解

    要想深入学习HDFS就要先了解其设计思想和架构,这样才能继续深入使用HDFS或者深入研究源代码。懂得了“所以然”才能在实际使用中灵活运用、快速解决遇到的问题。下面这篇博文我们就先从一般的分布式谈起,在宏观上逐步去...

HDFS的客户端操作详解

命令行操作: -help              功能:输出这个命令参数手册 -ls   &...

深刻理解HDFS工作机制详解

  深入理解一个技术的工作机制是灵活运用和快速解决问题的根本方法,也是唯一途径。对于HDFS来说除了要明白它的应用场景和用法以及通用分布式架构之外更重要的是理解关键步骤的原理和实现细节。在看这篇博文之前需要对HDFS以及分布式系统有一些了解...

Spark学习笔记6:Spark调优与调试详解

 1、使用Sparkconf配置Spark   对Spark进行性能调优,通常就是修改Spark应用的运行时配置选项。   Spark中最主要的配置机制通过SparkConf类对Spark进行配置,当创建出一个SparkContext时...

Spark学习笔记5:Spark集群架构详解

  Spark的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展计算能力。Spark可以在各种各样的集群管理器(Hadoop YARN , Apache Mesos , 还有Spark自带的独立集群管理器)上运行,所以Spark应...

Spark学习笔记4:数据读取与保存详解

Spark对很多种文件格式的读取和保存方式都很简单。Spark会根据文件扩展名选择对应的处理方式。 Spark支持的一些常见文件格式如下:  文本文件    使用文件路径作为参数调用SparkContext中的textF...

Spark学习笔记3:键值对操作详解

键值对RDD通常用来进行聚合计算,Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为pair RDD。pair RDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。 Spark中创建pair RDD的方法:...

Spark学习笔记2:RDD编程详解

 通过一个简单的单词计数的例子来开始介绍RDD编程。 import org.apache.spark.{SparkConf, SparkContext} object word { def main(args:...

HBase核心知识点总结详解

一、HBase介绍 1、基本概念 HBase是一种Hadoop数据库,经常被描述为一种稀疏的,分布式的,持久化的,多维有序映射,它基于行键、列键和时间戳建立索引,是一个可以随机访问的存储和检索数据的平台。HBase不限制存储的数据的种类...