hadoop配置文件配置项定义

0. 版本
    0.19.2

1. hadoop cluster组成
    1.1. HDFS
        1.1.1 Name Node (1台)
        1.1.2 Secondary Name Node (1台, 可选)
        1.1.3 Data Node (若干台)
    1.2. MR
        1.2.1 Master [JobTracker] (1台)
        1.2.2 Slave [TaskTracker] (若干台)

2. 配置文件
    2.1 hadoop-default.xml
        hadoop集群的默认配置, 通常不需要修改这个配置文件.
    2.2 hadoop-site.xml
        hadoop集群里面的机器个性化配置文件, 通常在这里指定机器的个性化配置.

3. 配置项
    3.1 fs.default.name
        定义: Name Node的URI
        描述: hdfs://hostname/

    3.2 mapred.job.tracker
        定义: JobTracker的地址
        描述: hostname:port

    3.3 dfs.name.dir
        定义: Name Node 保存元数据和事务日志的本地目录
        描述: 逗号分隔的目录列表用于指定多份数据的冗余备份.

    3.4 dfs.data.dir
        定义: Data Node 保存块文件的本地目录
        描述: 逗号分隔的目录列表指定这些目录用于保存块文件.

    3.5 mapred.system.dir
        定义: HDFS上MapReduce保存系统文件的目录.
        描述: 

    3.6 mapred.local.dir
        定义: 保存MapReduce临时文件的本地目录
        描述: 逗号分隔的目录列表用于指定多个目录同时做为临时数据空间

    3.7 mapred.tasktracker.{map|reduce}.tasks.maximum
        定义: TaskTracker上最多能够同时运行的map/reduce task数目.
        描述: 默认map/reduce task数目各为2.

    3.8 dfs.hosts/dfs.hosts.exclude
        定义: Data Node白名单/黑名单文件
        描述: 

    3.9 mapred.hosts/mapred.hosts.exclude
        定义: MapReduce白名单/黑名单文件
        描述:

    3.10 mapred.queue.names
        定义: 队列名
        描述: hadoop MapReduce系统默认有一个"default"的Job队列(pool).

    3.11 dfs.block.size
        定义: hdfs默认块大小
        描述: 默认是128M

    3.12 dfs.namenode.handler.count
        定义: namenode同时和datanode通信的线程数
        描述:

    3.13 mapred.reduce.parallel.copies
        定义: reducer同时从mapper上拉取的文件数
        描述:

    3.14 mapred.child.java.opts
        定义: child jvm的堆大小
        描述:

    3.15 fs.inmemory.size.mb
        定义: reducer在合并map输出数据使用的内存空间
        描述: 默认使用200M

    3.16 io.sort.factor
        定义: 排序因子。同时合并的数据流的数量
        描述:

    3.17 io.sort.mb
        定义: 排序使用的最大内存
        描述:

    3.18 io.file.buffer.size
        定义: 读写文件的缓冲区大小
        描述:

    3.19 mapred.job.tracker.handler.count
        定义: jobtracker同时与tasktracker通信的线程数
        描述:

    3.20 tasktracker.http.threads
        定义: tasktracker开http服务的线程数。用于reduce拉取map输出数据。
        描述:

《待续》
09-25 22:28