pgm对XML中的每个Text值进行计数

pgm对XML中的每个Text值进行计数

本文介绍了使用HADOOP mapreduce pgm对XML中的每个Text值进行计数的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我是Hadoop的新手。我需要使用java中的mapreduce程序来解析一个小的xml文件。我正在使用hadoop 1.0.4
表示我的xml文件是

 < configuration> 
<属性>
<名称> adv< / name>
<值> a< /值>
< dup>学校< / dup>
< / property>
<属性>
<名称> aghy< /名称>
<值> a< /值>
< dup> bk< / dup>
< / property>
< / configuration>

我需要像这样的输出
adv 1 a 2 aghy 1 school 1 bk 1



如何编辑代码。任何工作理念。
帮助我。

解决方案
您需要一些东西:


  • 处理XML文件的输入格式,建议您查看

  • 传递给映射器(SAX或DOM)的XML字符串的解析器,可以定义一些JAXB对象绑定到



  • 以及一些有用的链接:




    I am new to Hadoop. I need to parse a small xml file using mapreduce program in java. I am using hadoop 1.0.4say my xml file is

    <configuration>
    <property>
     <name>adv</name>
     <value>a</value>
     <dup>school</dup>
    </property>
    <property>
     <name>aghy</name>
     <value>a</value>
     <dup>bk</dup>
    </property>
    </configuration>
    

    i need an output like thisadv 1 a 2 aghy 1 school 1 bk 1

    how can i edit the code https://github.com/studhadoop/xmlparsing-hadoop/blob/master/XmlParser11.java .Any working idea.pls help me out.

    解决方案

    You'll need a couple of things:

    • An input format for processing XML Files, suggest you look at Mahout's XMLInputFormat
    • A Parser for the XML String passed to the mapper (SAX or DOM), maybe define some JAXB objects to bind to

    And some useful links:

    这篇关于使用HADOOP mapreduce pgm对XML中的每个Text值进行计数的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

08-24 03:41