Apache Hadoop1.1.1+Apache Oozie3.3.2搭建安装过程详解（亲测）

写在前面： 1.Apache版本HADOOP云计算平台环境搭建 1.1 集群环境介绍 Hadoop集群环境包含1台机器，在每台机器上运行4台虚拟机，是一个典型的主从式（Master-Slaves）结构。集群包含一个主控节点（Master）和4个从属节点（Slave）。在主从式结构中，主节点一

写在前面：

1.Apache版本HADOOP云计算平台环境搭建

1.1 集群环境介绍

Hadoop集群环境包含1台机器，在每台机器上运行4台虚拟机，是一个典型的主从式（Master-Slaves）结构。集群包含一个主控节点（Master）和4个从属节点（Slave）。在主从式结构中，主节点一般负责集群管理、任务调度和负载平衡等，从节点则执行来自主节点的计算和存储任务。

该集群环境具体的软硬件和网络配置情况见表3.1。

表3.1 集群详细软硬件和网络配置

序号	主机名	网络地址	操作系统
1	Master	192.168.137.2	Centos6.4-x64
2	Slave1	192.168.137.3	Centos6.4-x64
3	Slave2	192.168.137.4	Centos6.4-x64

1.2 Hadoop环境搭建

1.2.1 Apache Hadoop简介

Hadoop是Apache开源组织的一个分布式计算框架，可以在大量廉价硬件设备组成的集群上运行应用程序，并为应用程序提供了一组稳定可靠的接口，旨在构建一个具有高可靠性和良好扩展性的分布式系统。随着云计算技术的逐渐流行与普及，该项目被越来越多的个人和企业所运用。Hadoop项目的核心是HDFS、MapReduce和HBase，它们分别是Google云计算核心技术GFS（Google File System）、MapReduce和Bigtable的开源实现。

1.2.2 Apache Hadoop安装准备

1、hosts的配置

这一步是必须的，因为这里需要对使用环境的user做具体的分配和指定。

2、更改hosts

首先需要设定IP地址：

#ifconfig //查询现在的ip地址

然后通过设置VPN，来设置各机器的IP地址，具体过程这里就不详述了。

现在需要配置每台电脑的hosts名称，使用下列指令：

#vim /etc/sysconfig/network

在其中添加这样的内容：

HOSTNAME=Master.Hadoop

（备注：Slave机器则改为相应的Slave1.Hadoop…….）

3、配置hosts文件

#vim /etc/hosts

在其中添加下面几行内容：

192.168.137.2 Master.Hadoop

192.168.137.3 Slave1.Hadoop

192.168.137.4 Slave2.Hadoop

4、验证设置是否启用

我们在Master.Hadoop对机器为"Slave1.Hadoop"的主机名进行ping通测试，看是否能测试成功。

Master.Hadoop$ping192.168.137.3

（备注：对于其他机器之间的测试同理）

5、添加一个用户

#adduser hadoop

#passwd hadoop //设置hadoop的密码

1.3.3 ssh无密码验证设置（以下设置全部在hadoop用户下进行）

Hadoop运行过程中需要管理远端Hadoop守护进程，在Hadoop启动以后，NameNode是通过SSH（Secure Shell）来启动和停止各个DataNode上的各种守护进程的。这就必须在节点之间执行指令的时候是不需要输入密码的形式，故我们需要配置SSH运用无密码公钥认证的形式，这样NameNode使用SSH无密码登录并启动DataName进程，同样原理，DataNode上也能使用SSH无密码登录到NameNode。

1、安装和启动ssh

可以通过下面命令查看是否已经安装ssh和rsync，显示如下：

$rpm –qa | grep openssh

$rpm –qa | grep rsync

2、Master机器上生成密码对

在Master节点上执行以下命令：

$ssh-keygen –t rsa –P ''

（备注：这里的“’”是单引号，上面指令最后使用了两个单引号）

这条命令是生成其无密码密钥对，询问其保存路径时直接回车采用默认路径。生成的密钥对：id_rsa和id_rsa.pub，默认存储在"~/.ssh"目录下。

查看"/usr/hadoop/"下是否有".ssh"文件夹，且".ssh"文件下是否有两个刚生产的无密码密钥对。接着在Master节点上做如下配置，把id_rsa.pub追加到授权的key里面去。使用下面的指令：

$cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

在验证前，需要做两件事儿。第一件事儿是修改文件"authorized_keys"权限（权限的设置非常重要，因为不安全的设置安全设置，会让你不能使用RSA功能），另一件事儿是用root用户设置"/etc/ssh/sshd_config"的内容。使其无密码登录有效。

3、修改文件"authorized_keys"的权限

使用下列指令：

$chmod 600~/.ssh/authorized_keys

4、设置SSH配置

用root用户登录服务器修改SSH配置文件"/etc/ssh/sshd_config"的下列内容，去掉下面几句话前面的注释符“#”。

RSAAuthentication yes # 启用 RSA 认证

PubkeyAuthentication yes # 启用公钥私钥配对认证方式

AuthorizedKeysFile .ssh/authorized_keys # 公钥文件路径

设置完之后记得重启SSH服务，才能使刚才设置有效。

$service sshd restart

退出root登录，使用hadoop普通用户验证是否成功。

#ssh localhost

5、在Slave机器上生成密码对

在Slave1.Hadoop上执行下列指令：

$ssh-keygen –t –rsa –P ''

在Slave1.Hadoop机器中生成~/.ssh文件。然后在把本机生成的密码对加载到本机上的authorized_keys

$cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys

然后更改authorized_keys文件的权限。

$chmod 600~/.ssh/authorized_keys

(备注：如果有多个Slave，对多个Slave进行相同的操作即可，Slave2.Hadoop,Slave2.Hadoop……)

6、在Master和Slave之间追加授权密码

Master.Hadoop$cd ~/.ssh

Master.Hadoop$scp./id_rsa.pub hadoop@192.168.137.3:~/

Slave1.Hadoop$cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

Slave1.Hadoop$scp ~/.ssh/id_rsa.pub hadoop@192.168.137.4:~/

Master.Hadoop$cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

（备注：如果有多个Slave，对多个Slave和Master之间进行相同的操作即可）

用root用户登录服务器修改SSH配置文件"/etc/ssh/sshd_config"的下列内容，去掉下面几句话前面的注释符“#”。

RSAAuthentication yes # 启用 RSA 认证

PubkeyAuthentication yes # 启用公钥私钥配对认证方式

AuthorizedKeysFile .ssh/authorized_keys # 公钥文件路径（和上面生成的文件同）

　　设置完之后记得重启SSH服务，才能使刚才设置有效。

$service sshd restart

　退出root登录，使用hadoop普通用户验证是否成功。

#ssh localhost

7、验证ssh无密码登陆设置成功

Master.Hadoop$ssh Slave1.Hadoop

这时候如果不需要输入Slave1.Hadoop主机的登陆密码，就说明设置成功了，否则，说明前面的设置出错了，请细心检查下。

同理，再输入下列指令，检验Slave对Master的设置是否成功：

Slave1.Hadoop$sshMaster.Hadoop

1.3.4 JAVA环境安装（所有主机均要安装，并且以下操作在root用户下执行）

1、下载jdk

从oracle官网下载jdk1.7.0_21，放到根目录下/。

2、安装jdk

执行下列指令：

#cd /usr

#mkdir java

#cp / jdk-7u21-linux-x64.rpm/usr/java/

#cd /usr/java

#rpm –ivh jdk-7u21-linux-x64.rpm

然后会进行rpm安装的过程。

3、设置java环境变量

编辑"/etc/profile"文件，在后面添加Java的"JAVA_HOME"、"CLASSPATH"以及"PATH"内容。

首先，编辑"/etc/profile"文件

#vim /etc/profile

其次，添加Java环境变量

在"/etc/profile"文件的尾部添加以下内容：

# set java environment

export JAVA_HOME=/usr/java/jdk1.7.0_21

export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin

保存并退出，执行下面命令使其配置立即生效。

#source /etc/profile

4、验证安装和配置是否成功

输入下列指令：

#java -version

然后写一个小的JAVA程序，编译执行下是否正确执行，如果可以，则配置成功，否则，JAVA的配置过程可能有问题，需要检查。

1.3.5 Hadoop集群安装

　　所有的机器上都要安装hadoop，现在就先在Master服务器安装，然后其他服务器按照步骤重复进行即可。安装和配置hadoop需要以"root"的身份进行。

用root用户登录"Master.Hadoop"机器，查看我们用SSH上传至"/"目录下的"hadoop-1.1.1.tar.gz"，把该文件复制到“/usr/”目录下。

1、进入"/usr/"目录下，用下面命令把"hadoop-1.1.1.tar.gz "进行解压，并将其命名为"hadoop"，把该文件夹的读权限分配给普通用户hadoop，然后删除" hadoop-1.1.1.tar.gz"安装包。

#cd /usr

#tar -zxvf hadoop-1.1.1.tar.gz

#mv hadoop-1.1.1 hadoop

#chown -R hadoop:hadoop hadoop

#rm -r hadoop-1.1.1.tar.gz

2、把Hadoop的安装路径添加到"/etc/profile"中，修改"/etc/profile"文件（配置java环境变量的文件），将以下语句添加到末尾，并使其有效：

3、在"/usr/hadoop"创建"tmp"文件夹

#mkdir /usr/hadoop/tmp

4、配置"/etc/profile"

#vim /etc/profile

# set hadoop path

export HADOOP_HOME=/usr/hadoop

export PATH=$PATH:$HADOOP_HOME/bin

重启"/etc/profile"

#source /etc/profile

5、配置hadoop

需要配置hadoop的文件，首先，配置hadoop-env.sh

　　该"hadoop-env.sh"文件位于"/usr/hadoop/conf"目录下。

在文件的末尾添加下面内容。

# set java environment

export JAVA_HOME=/usr/java/jdk1.7.0_21

Hadoop配置文件在conf目录下，之前的版本的配置文件主要是Hadoop-default.xml和Hadoop-site.xml。由于Hadoop发展迅速，代码量急剧增加，代码开发分为了core，hdfs和map/reduce三部分，配置文件也被分成了三个core-site.xml、hdfs-site.xml、mapred-site.xml。core-site.xml和hdfs-site.xml是站在HDFS角度上配置文件；core-site.xml和mapred-site.xml是站在MapReduce角度上配置文件。

其次是配置core-site.xml文件，修改Hadoop核心配置文件core-site.xml，这里配置的是HDFS的地址和端口号。

（备注：如没有配置hadoop.tmp.dir参数，此时系统默认的临时目录为：/tmp/hadoo-hadoop。而这个目录在每次重启后都会被干掉，必须重新执行format才行，否则会出错。）

然后是配置hdfs-site.xml文件，修改Hadoop中HDFS的配置，配置的备份方式默认为1。

下面需要配置masters文件和slaves文件，对于masters文件，去掉"localhost"，改成本集群中主节点的IP地址：192.168.137.2；对于slaves文件（Master主机特有），去掉"localhost"，加入集群中所有Slave机器的IP，也是每行一个。

192.168.137.3

192.168.137.4

现在在Master机器上的Hadoop配置就结束了，剩下的就是配置Slave机器上的Hadoop。将 Master上配置好的hadoop所在文件夹"/usr/hadoop"复制到所有的Slave的"/usr"目录下（实际上Slave机器上的slavers文件是不必要的，复制了也没问题）。用下面命令格式进行。（备注：此时用户可以为hadoop也可以为root）

#scp -r /usr/hadoop root@192.168.137.3:/usr/

#scp -r /usr/hadoop root@192.168.137.4:/usr/

当然不管是用户root还是hadoop，虽然Master机器上的"/usr/hadoop"文件夹用户hadoop有权限，但是Slave1上的hadoop用户却没有"/usr"权限，所以没有创建文件夹的权限。所以无论是哪个用户进行拷贝，右面都是"root@机器IP"格式。因为我们只是建立起了hadoop用户的SSH无密码连接，所以用root进行"scp"时，扔提示让你输入"Slave1.Hadoop"服务器用户root的密码。

hadoop文件夹确实已经复制了，但是我们发现hadoop权限是root，所以我们现在要给"Slave1.Hadoop"服务器上的用户hadoop添加对"/usr/hadoop"读权限。以root用户登录"Slave1.Hadoop"，执行下面命令。

#chown -R hadoop:hadoop hadoop

接着在"Slave1 .Hadoop"上修改"/etc/profile"文件（配置 java 环境变量的文件），将以下语句添加到末尾，并使其有效（source /etc/profile）：

# set hadoop environment

export HADOOP_HOME=/usr/hadoop

export PATH=$PATH :$HADOOP_HOME/bin

1.3.6 启动及验证

1、格式化HDFS文件系统

　　在"Master.Hadoop"上使用普通用户hadoop进行操作。（备注：只需一次，下次启动不再需要格式化，只需 start-all.sh）

$hadoop namenode –format

2、启动hadoop

　　在启动前关闭集群中所有机器的防火墙，不然会出现datanode开后又自动关闭。

$service iptables stop

　　使用下面命令启动。

$start-all.sh

启动 hadoop成功后，在 Master 中的 tmp 文件夹中生成了 dfs 文件夹，在Slave 中的 tmp 文件夹中均生成了 dfs 文件夹和 mapred 文件夹。

到此为止，hadoop云计算平台配置完毕。

2.OOZIE的安装配置

2.1 OOZIE简介

oozie是一种Java Web应用程序，它运行在Javaservlet容器——即Tomcat中，并使用数据库来存储以下内容：

? 工作流定义

? 当前运行的工作流实例，包括实例的状态和变量

Oozie工作流是放置在控制依赖DAG（有向无环图 DirectAcyclic Graph）中的一组动作（例如，Hadoop的Map/Reduce作业、Pig作业等），其中指定了动作执行的顺序。我们会使用hPDL（一种XML流程定义语言）来描述这个图。

hPDL是一种很简洁的语言，只会使用少数流程控制和动作节点。控制节点会定义执行的流程，并包含工作流的起点和终点（start、end和fail节点）以及控制工作流执行路径的机制（decision、fork和join节点）。动作节点是一些机制，通过它们工作流会触发执行计算或者处理任务。Oozie为以下类型的动作提供支持：Hadoop map-reduce、Hadoop文件系统、Pig、Java和Oozie的子工作流（SSH动作已经从Oozie schema 0.2之后的版本中移除了）。

所有由动作节点触发的计算和处理任务都不在Oozie之中——它们是由Hadoop的Map/Reduce框架执行的。这种方法让Oozie可以支持现存的Hadoop用于负载平衡、灾难恢复的机制。这些任务主要是异步执行的（只有文件系统动作例外，它是同步处理的）。这意味着对于大多数工作流动作触发的计算或处理任务的类型来说，在工作流操作转换到工作流的下一个节点之前都需要等待，直到计算或处理任务结束了之后才能够继续。Oozie可以通过两种不同的方式来检测计算或处理任务是否完成，也就是回调和轮询。当Oozie启动了计算或处理任务的时候，它会为任务提供唯一的回调URL，然后任务会在完成的时候发送通知给特定的URL。在任务无法触发回调URL的情况下（可能是因为任何原因，比方说网络闪断），或者当任务的类型无法在完成时触发回调URL的时候，Oozie有一种机制，可以对计算或处理任务进行轮询，从而保证能够完成任务。

Oozie工作流可以参数化（在工作流定义中使用像${inputDir}之类的变量）。在提交工作流操作的时候，我们必须提供参数值。如果经过合适地参数化（比方说，使用不同的输出目录），那么多个同样的工作流操作可以并发。

一些工作流是根据需要触发的，但是大多数情况下，我们有必要基于一定的时间段和（或）数据可用性和（或）外部事件来运行它们。Oozie协调系统（Coordinatorsystem）让用户可以基于这些参数来定义工作流执行计划。Oozie协调程序让我们可以以谓词的方式对工作流执行触发器进行建模，那可以指向数据、事件和（或）外部事件。工作流作业会在谓词得到满足的时候启动。

经常我们还需要连接定时运行、但时间间隔不同的工作流操作。多个随后运行的工作流的输出会成为下一个工作流的输入。把这些工作流连接在一起，会让系统把它作为数据应用的管道来引用。Oozie协调程序支持创建这样的数据应用管道。

2.2 OOZIE安装具体过程

1、先下载Oozie，下载后解压oozie-3.3.2.tar.gz到根目录下：

获取文件“oozie-3.3.2”，放到目录“/”下。并重命名为oozie。

这个时候执行命令：

#./bin/mkdistro.sh–DskipTests

2、下载ext-2.2.zip，下载文件“ext-2.2”，放到目录“/”下。

3、设置HADOOP的配置文件

在/usr/hadoop/conf/core-site.xml文件中加入下列内容：

修改完成后，新建一个文件夹/usr/oozie/libext/将ext-2.2.zip放到该目录下。

4、将oozie文件夹复制到/usr/目录下面。

5、拷贝HADOOP的JAR包到oozie。

将./hadooplibs/hadoop-1/文件夹下的所有JAR包复制到刚才新建的libext文件夹下。

6、拷贝ext-2.2.zip文件到./webapp/下并且解压到该目录下。

7、创建文件oozie.war。运行命令：

/usr/oozie/bin/oozie-setup.sh-extjs /oozie/webapp/src/main/webapp/ext-2.2.zip

显示：Specified Oozie WAR '/usr/oozie/oozie.war'already contains ExtJS library files，即可继续。

8、设置OOZIE的配置文件。

修改文件/usr/oozie/conf/oozie-site.xml，找到下面这部分内容：

将其中的false改成true。

9、加载数据库。

使用命令：

#/usr/oozie/bin/ooziedb.sh create -sqlfile oozie.sql –run

之后出现：

setting CATALINA_OPTS="$CATALINA_OPTS -Xmx1024m"

Validate DB Connection

DONE

Check DB schema does not exist

DONE

Check OOZIE_SYS table does not exist

DONE

Create SQL schema

DONE

Create OOZIE_SYS table

DONE

Oozie DB has been created for Oozie version '3.3.2'

The SQL commands have been written to: oozie.sql

即表示创建成功。这时候可以看到一个oozie.sql文件。

10、加入原Hadoop的包，这里需要拷贝hadoop-core-1.1.1.jar和commons-configuration-1.6.jar这两个JAR包到目录：./oozie-server/webapps/oozie/WEB-INF/lib/下。

11、拷贝oozie.war文件到./oozie-server/webapps/下。

12、更改权限，此时需要更改oozie文件夹及其全部子文件的权限：

#chown -R hadoop:hadoop oozie

13、开启Oozie，使用命令：

$./bin/oozied.sh run

14、查看web控制台

输入命令:

$oozie admin -oozie http://192.168.137.2:11000/oozie -status

当看到结果:

System mode: NORMAL

则表示已经成功,通过浏览器输入http://192.168.137.2:11000/oozie就能看到Oozie的管理界面。如下图2.1所示：

Apache Hadoop1.1.1+Apache Oozie3.3.2搭建安装过程详解（亲测）-LMLPHP

图2.1 Oozie管理界面