hadoop集群搭建-JobPlus

hadoop 版本： 2.9.1
集群搭建的工具：
1、开源：http://ambari.apache.org/team-list.html ambari是apache下面一个开源的hadoop集群管理工具
2、收费：https://www.cloudera.com/ cloudera manager提供了一个免费的和一个企业使用的版本

一、文件下载解压
(1)编译好的 345M
wget -P [download-to-dir] https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.9.1/hadoop-2.9.1.tar.gz
（2）源码 37M
wget -P [download-to-dir] https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.9.1/hadoop-2.9.1-src.tar.gz
二、配置ssh免登录
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa 生成ssh公密与私密
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 把公密写进认证文件中
chmod 0600 ~/.ssh/authorized_keys 修改文件权限
把所有机器的id_rsa.pub都写到一个文件夹中，再拷贝到每个文件中

三、关闭防火墙 ----> systemctl disable firewalld
SELinux Linux的一个扩张强制访问控制安全模块 vi /etc/sysconfig/selinux SELINUX=disabled
修改hostname vi /etc/hostname
修改hosts vi /etc/hosts 把每个机器的主机名与对应ip地址写进每个机器中（如果有DNS服务器，这步可以省略）
设置 jdk环境变量
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
export PATH=$JAVA_HOME/bin:$PATH
设置 hadoop环境变量
export HADOOP_HOME=/opt/hadoop-2.9.1
export PATH=$HADOOP_HOME/bin:$PATH
四、配置
（1）hadoop-env.sh （all nodes）
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
（2）yarn-env.sh （all nodes）
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
（3）mapreduce-env.sh （all nodes）
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
（4）core-site.xml (name node) 文件系统的主机，端口临时文件夹的位置
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop-yarn-117.dragon.org:9000</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-2.9.1/date/tmp</value>
</property>
</configuration>
（5）hdfs-site.xml (name node) hdfs 的复本数量 ---->如果需要修改复本数，可以直接修改，重启生效，不需要初始化
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
（6）yarn-site.xml (name node) yarn集群配置
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
（7）mapreduce-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
五、启动
1）格式化读取配置信息产生一个Cluster ID:
bin/hdfs namenode -format [-clusterid yzl-hadoop]
2）启动 namenode datanode
sbin/hadoop start namenode
sbin/hadoop start datanode
六、操作 hdfs 文件系统（）
1）在文件系统的根目录下面创建文件夹
bin/hdfs dfs -mkdir /data01
2）查看创建的文件夹
bin/hdfs dfs -ls /
3）查看文件
bin/hdfs dfs -cat 或 -text 或 -tail /data01/test.txt
七、日志
.log 记录大部分应用程序的日志信息
.out 日志量很少
八、创建集群
配置ssh免登录，core-site.xml !!!注：如果在启动集群之前已经在master节点上把 datanode启动过了，则如果想集群在master节点上无namenode则需要hdfs namenode -format
九、namenode目录
单独放一块安全的目录，可以设置多个目录，用逗号分开
hdfs-site.xml
<property>
<name>dfs.namenode.name.dir</name>
<value>/mn1/disk1,/mn2/disk2,nfs://</value>
</property>
十、用python操作hdfs，python安装包 pyhdfs
十一、hadoop RFC框架
十二、配置yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop-yarn-117</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
配置 mapreduce-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
配置yarn-env.sh java环境变量

hadoop 版本： 2.9.1 集群搭建的工具： 1、开源：http://ambari.apache.org/team-list.html     ambari是apache下面一个开源的hadoop集群管理工具 2、收费：https://www.cloudera.com/        cloudera manager提供了一个免费的和一个企业使用的版本 一、文件下载解压 (1)编译好的  345M wget -P [download-to-dir] https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.9.1/hadoop-2.9.1.tar.gz （2）源码  37M wget -P [download-to-dir] https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.9.1/hadoop-2.9.1-src.tar.gz    二、配置ssh免登录 ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa       生成ssh公密与私密 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys  把公密写进认证文件中 chmod 0600 ~/.ssh/authorized_keys   修改文件权限 把所有机器的id_rsa.pub都写到一个文件夹中，再拷贝到每个文件中 三、关闭防火墙   ---->  systemctl disable firewalld SELinux    Linux的一个扩张强制访问控制安全模块     vi /etc/sysconfig/selinux   SELINUX=disabled 修改hostname    vi /etc/hostname 修改hosts       vi /etc/hosts       把每个机器的主机名与对应ip地址写进每个机器中（如果有DNS服务器，这步可以省略） 设置 jdk环境变量  export    JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre export    PATH=$JAVA_HOME/bin:$PATH 设置 hadoop环境变量 export  HADOOP_HOME=/opt/hadoop-2.9.1 export  PATH=$HADOOP_HOME/bin:$PATH 四、配置  （1）hadoop-env.sh   （all nodes） export	JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre （2）yarn-env.sh	（all nodes） export	JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre （3）mapreduce-env.sh	（all nodes） export	JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre （4）core-site.xml	(name node)   文件系统的主机，端口    临时文件夹的位置 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop-yarn-117.dragon.org:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoop-2.9.1/date/tmp</value> </property> </configuration> （5）hdfs-site.xml (name node)    hdfs 的复本数量  ---->如果需要修改复本数，可以直接修改，重启生效，不需要初始化 <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> （6）yarn-site.xml     (name node)	yarn集群配置 <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> （7）mapreduce-site.xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> 五、启动 1）格式化   读取配置信息    产生一个Cluster ID: bin/hdfs namenode -format   [-clusterid yzl-hadoop] 2）启动 namenode datanode sbin/hadoop start namenode sbin/hadoop start datanode 六、操作 hdfs 文件系统 （） 1）在文件系统的根目录下面创建文件夹 bin/hdfs dfs -mkdir /data01 2）查看创建的文件夹 bin/hdfs dfs -ls / 3）查看文件 bin/hdfs dfs -cat 或 -text 或 -tail /data01/test.txt 七、日志 .log   记录大部分应用程序的日志信息 .out   日志量很少 八、创建集群 配置ssh免登录，core-site.xml    !!!注：如果在启动集群之前已经在master节点上把 datanode启动过了，则如果想集群在master节点上无namenode则需要hdfs namenode -format 九、namenode目录  单独放一块安全的目录，可以设置多个目录，用逗号分开 hdfs-site.xml <property> <name>dfs.namenode.name.dir</name> <value>/mn1/disk1,/mn2/disk2,nfs://</value> </property> 十、用python操作hdfs，python安装包 pyhdfs 十一、hadoop RFC框架 十二、配置yarn-site.xml <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>hadoop-yarn-117</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> 配置 mapreduce-site.xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> 配置yarn-env.sh java环境变量