hadoop 版本: 2.9.1
集群搭建的工具:
1、开源:http://ambari.apache.org/team-list.html ambari是apache下面一个开源的hadoop集群管理工具
2、收费:https://www.cloudera.com/ cloudera manager提供了一个免费的和一个企业使用的版本
一、文件下载解压
(1)编译好的 345M
wget -P [download-to-dir] https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.9.1/hadoop-2.9.1.tar.gz
(2)源码 37M
wget -P [download-to-dir] https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.9.1/hadoop-2.9.1-src.tar.gz
二、配置ssh免登录
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa 生成ssh公密与私密
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 把公密写进认证文件中
chmod 0600 ~/.ssh/authorized_keys 修改文件权限
把所有机器的id_rsa.pub都写到一个文件夹中,再拷贝到每个文件中
三、关闭防火墙 ----> systemctl disable firewalld
SELinux Linux的一个扩张强制访问控制安全模块 vi /etc/sysconfig/selinux SELINUX=disabled
修改hostname vi /etc/hostname
修改hosts vi /etc/hosts 把每个机器的主机名与对应ip地址写进每个机器中(如果有DNS服务器,这步可以省略)
设置 jdk环境变量
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
export PATH=$JAVA_HOME/bin:$PATH
设置 hadoop环境变量
export HADOOP_HOME=/opt/hadoop-2.9.1
export PATH=$HADOOP_HOME/bin:$PATH
四、配置
(1)hadoop-env.sh (all nodes)
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
(2)yarn-env.sh (all nodes)
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
(3)mapreduce-env.sh (all nodes)
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64/jre
(4)core-site.xml (name node) 文件系统的主机,端口 临时文件夹的位置
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop-yarn-117.dragon.org:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-2.9.1/date/tmp</value>
</property>
</configuration>
(5)hdfs-site.xml (name node) hdfs 的复本数量 ---->如果需要修改复本数,可以直接修改,重启生效,不需要初始化
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
(6)yarn-site.xml (name node) yarn集群配置
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
(7)mapreduce-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
五、启动
1)格式化 读取配置信息 产生一个Cluster ID:
bin/hdfs namenode -format [-clusterid yzl-hadoop]
2)启动 namenode datanode
sbin/hadoop start namenode
sbin/hadoop start datanode
六、操作 hdfs 文件系统 ()
1)在文件系统的根目录下面创建文件夹
bin/hdfs dfs -mkdir /data01
2)查看创建的文件夹
bin/hdfs dfs -ls /
3)查看文件
bin/hdfs dfs -cat 或 -text 或 -tail /data01/test.txt
七、日志
.log 记录大部分应用程序的日志信息
.out 日志量很少
八、创建集群
配置ssh免登录,core-site.xml !!!注:如果在启动集群之前已经在master节点上把 datanode启动过了,则如果想集群在master节点上无namenode则需要hdfs namenode -format
九、namenode目录
单独放一块安全的目录,可以设置多个目录,用逗号分开
hdfs-site.xml
<property>
<name>dfs.namenode.name.dir</name>
<value>/mn1/disk1,/mn2/disk2,nfs://</value>
</property>
十、用python操作hdfs,python安装包 pyhdfs
十一、hadoop RFC框架
十二、配置yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop-yarn-117</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
配置 mapreduce-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
配置yarn-env.sh java环境变量
hadoop集群搭建
用户评价(0)
暂无评价,你也可以发布评价哦:)
登录 | 立即注册