600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > Hadoop-2.8.0集群搭建 hadoop源码编译和安装 host配置 ssh免密登录 hadoop配置文

Hadoop-2.8.0集群搭建 hadoop源码编译和安装 host配置 ssh免密登录 hadoop配置文

时间:2019-07-26 04:59:41

相关推荐

Hadoop-2.8.0集群搭建 hadoop源码编译和安装 host配置 ssh免密登录 hadoop配置文

25. 集群搭建

25.1 HADOOP集群搭建

25.1.1集群简介

HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起

HDFS集群:

负责海量数据的存储,集群中的角色主要有NameNode / DataNode

YARN集群:

负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager

25.1.2服务器准备

本案例使用虚拟机服务器来搭建HADOOP集群,所用软件及版本:

üVmware 11.0

üCentos 6.764bit

25.1.3网络环境准备

ü采用NAT方式联网

ü网关地址:192.168.106.2

ü3个服务器节点IP地址:192.168.106.80、192.168.106.81、192.168.106.82 (均为虚拟机)

ü子网掩码:255.255.255.0

ü注意防火墙关闭hadoop相关的一些端口

ü需要下载hadoop2.8.0-src.tar.gz进行源码编译

针对自己Linux版本的hadoop-2.8.0.tar.gz的获取方式:/tototuzuoquan/article/details/72796632(本博文中还是使用官网提供的hadoop-2.8.0.tar.gz进行安装,然后安装过程的错误用自己编译的hadoop-2.8.0.tar.gz中的部分文件进行替换,注意的是下面的安装文件都是从网上下来的hadoop-2.8.0.tar.gz中的内容,唯独用到的紧紧是解压后的hadoop-2.8.0/lib/native,也就是说用编译出来的native替换从网上下载下来的:hadoop-2.8.0/lib/native)

25.1.4服务器系统设置

在整个集群部署过程中需要经过以下几个步骤:

1、修改Linux的hostname,配置后的内容如下(如192.168.106.80机器,配置后的效果如下,同样的配置192.168.106.81,192.168.106.82):

经过以上配置之后,可以通过以下命令在80机器上ping 81,82这些服务器。

设置后的状态为:

ü设置主机名

nhadoop

nhadoop2

nhadoop3

ü配置内网域名映射:

n192.168.106.80 hadoop

n192.168.106.81 hadoop2

n192.168.106.82 hadoop3

配置ssh免密登录(可以參考的网址是:/ab198604/article/details/8250461),每个节点要分别产生公私密钥,参考命令如下:

2、建立hadoop运行账号(3台服务器都配置)

3、安装JDK

ü上传jdk安装包,安装jdk包,这里默认安装是jdk1.8.0_73

ü规划安装目录 /usr/local/java/jdk1.8.0_73

ü解压安装包

ü配置环境变量/etc/profile 然后source /etc/profile

可以看一下配置的/etc/profile的信息:

清除Linux缓存的方式是(在root用户下执行以下命令):

sync

echo 3 > /proc/sys/vm/drop_caches

25.1.6 HADOOP安装部署

可供参考的网址:/docs/r1.0.4/cn/cluster_setup.html(里面介绍了各种参数配置的含义)

参考网址2:/ab198604/article/details/8250461(这里是网上的安装配置方式)

经过以上步骤,准备工作已经完成了,下面开始修改hadoop的配置文件。

ü 下载最新的hadoop-2.8.0.tar.gz,下载地址:/releases.html#Download

ü上传HADOOP安装包,上传位置:

ü规划安装目录 /home/toto/software/hadoop-2.8.0

ü解压安装包 tar -zxvf hadoop-2.8.0.tar.gz

ü修改配置文件 $HADOOP_HOME/etc/hadoop/

最简化配置如下:

[toto@hadoop2 hadoop]$ cd /home/toto/software/hadoop-2.8.0/etc/hadoop

vimhadoop-env.sh

vi core-site.xml

注意:

A: fs.default.name是NameNode的URI。hdfs://主机名:端口/

B: hadoop.tmp.dir:Hadoop的默认临时路径,这个最好配置,如果在新增节点或者其它情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。不过如果删除了NameNode机器的此目录,那么就需要重新执行NameNode格式的命令。

vim hdfs-site.xml

注意:

A: dfs.name.dir是NameNode持久存储名字空间及事务日志的本地文件系统路径。当这个值是一个逗号分割的目录列表时,nametable数据将会被复制到所有目录中做冗余备份。

B: dfs.data.dir是DataNode存放块数据的本地文件系统路径,逗号分割的列表。当这个值是逗号分割的目录列表时,数据将被存储在所有目录下,通常分布在不同设备上。

C: dfs.replication是数据需要备份的数量,默认是3,如果此数大于集群的机器数会出错。

注意:上面的目录不需要手动创建,hadoop格式化时会自动创建,如果预先创建反而会有问题。

vi mapred-site.xml

告诉是运行在哪个资源调度平台上的,下面的意思是指定yarn为运算资源调度平台,注意在hadoop的包中,它的名字叫做:mapred-site.xml.template,最后要将名字改成mapred-site.xml

[toto@hadoop1 hadoop]$ pwd

/home/toto/software/hadoop-2.8.0/etc/Hadoop

[toto@hadoop1 hadoop]$ mvmapred-site.xml.template mapred-site.xml

vi yarn-site.xml

在yarn-site中要指定老大是谁,这里是hadoop

vi salves(列出哪些作为dataNode,这里把hadoop,hadoop2,hadoop3都变成dataNode)

上面的文件都配置好之后,将上面的文件通过scp命令将hadoop文件拷贝到hadoop2、hadoop3相应的文件夹下。

25.1.7 启动集群

注意,下面的命令都是在hadoop机器下执行的,hadoop可以免密访问hadoop2,hadoop3

初始化HDFS,要先初始化namenode的工作目录(第一次使用的时候要进行的工作,注意这个工作是在hadoop这台机器上进行的)

执行成功的标识是:

启动HDFS (注意:一定要在hadoop机器下,因为hadoop可以免密访问hadoop2,hadoop3)

通过上面的提示,说明hadoop可以启动hadoop2,hadoop3的datanode节点。

启动YARN

yarn的管理界面是:http://hadoop:8088/cluster

注意,如果想要启动namenode,访问地址是:

NameNode提供一个网页版本的访问地址:http://hadoop:50070/dfshealth.html#tab-overview,这个是配置的地址

配置HADOOP的环境变量,进入root用户,编辑/etc/profile命令

vim/etc/profile

最后执行:

source/etc/profile

25.1.8 测试

1、上传文件到HDFS

假设在/home/toto/software有:apache-hive-2.0.0-bin.tar.gz,将apache-hive-2.0.0-bin.tar.gz上传到hdfs下的/hive目录下,创建方式是:

再如案例:从本地上传一个文本文件到hdfs的/wordcount/input目录下

2、运行一个mapreduce程序

在HADOOP安装目录下,运行一个示例mr程序

3、其它

常见错误:

配置文件参数说明:

注意:core-site的说明

hdfs-site的配置说明:

mapred-site中的参数配置的说明:

Hadoop-2.8.0集群搭建 hadoop源码编译和安装 host配置 ssh免密登录 hadoop配置文件中的参数配置参数总结 hadoop集群测试 安装过程中的常见错误

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。