一、安装

1.1 环境

  • 系统:Ubuntu 16.04 LTS
  • 软件:
    • Java 1.7及以上
    • ssh 和 sshd
  • 安装ssh:
$ sudo apt-get install ssh
$ sudo apt-get install rsync

1.2 下载 Hadoop 2.8.0

下载地址:http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.8.0/
选择下载 hadoop-2.8.0.tar.gz,并解压。

1.3 为 Hadoop 配置 Java 路径

编辑 etc/hadoop/hadoop-env.sh:

export JAVA_HOME=/path/to/java/root/dir

1.4 启动 Hadoop

运行命令:

bin/hadoop

若打印出帮助信息,则表示安装成功。

二、标准模式(单机模式)操作

默认情况下,Hadoop被配置为以非分布式模式运行,作为一个单一的Java进程。这对于调试非常有用。
下面的示例复制未打包的conf目录作为输入,然后找到并显示给定正则表达式的每一个匹配项。输出被写入到给定的输出目录。

$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar grep input output 'dfs[a-z.]+'
$ cat output/*

2.1 伪分布模式操作

Hadoop还可以在一个伪分布模式下运行,每个Hadoop守护进程在一个单独的Java进程中运行。

2.1.1 配置

etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

2.1.2 ssh免密码连接本地主机

检查是否可以使用ssh到本地主机,而无需使用密码:

$ ssh localhost

如果不能在没有密码的情况下ssh到localhost,请执行以下命令:

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

2.1.3 执行

格式文件系统:
$ bin/hdfs namenode -format
启动NameNode守护进程和DataNode守护进程:
$ sbin/start-dfs.sh
浏览NameNode的web界面;默认情况下:

http://localhost:50070/

创建执行MapReduce作业所需的HDFS目录:
$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/<username>
将输入文件复制到分布式文件系统中:
$ bin/hdfs dfs -put etc/hadoop input
运行示例:
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar grep input output 'dfs[a-z.]+'
检查输出文件

将输出文件从分布式文件系统复制到本地文件系统,并检查它们:

$ bin/hdfs dfs -get output output
$ cat output/*

或者 查看分布式文件系统上的输出文件:

$ bin/hdfs dfs -cat output/*
当完成这些,可以停止守护进程:
$ sbin/stop-dfs.sh

2.1.4 单节点YARN

可以通过设置一些参数和运行ResourceManager守护进程及NodeManager守护进程,在伪分布模式下运行MapReduce作业。
(以下操作假设以上说明的前四步均已执行!)

配置

etc/hadoop/mapred-site.xml:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

etc/hadoop/yarn-site.xml:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>
启动ResourceManager守护进程和NodeManager守护进程
$ sbin/start-yarn.sh
浏览ResourceManager web界面;默认情况下:

http://localhost:8088/

完成后,停止守护进程:
$ sbin/stop-yarn.sh
12-05 08:24