在下面的代码中,我正在创建一个哈希图来存储称为Datums的对象,该对象包含一个String(位置)和一个计数。不幸的是,代码给出了非常奇怪的行为。

            FileSystem fs = FileSystem.get(new Configuration());
            Random r = new Random();
            FSDataOutputStream fsdos = fs.create(new Path("error/" + r.nextInt(1000000)));

            HashMap<String, Datum> datums = new HashMap<String, Datum>();
            while (itrtr.hasNext()) {
                Datum next = itrtr.next();
                synchronized (datums) {
                    if (!datums.containsKey(next.location)) {
                        fsdos.writeUTF("INSERTING: " + next + "\n");
                        datums.put(next.location, next);
                    } else {
                    } // skit those that are already indexed
                }
            }
            for (Datum d : datums.values()) {
                fsdos.writeUTF("PRINT DATUM VALUES: " + d.toString() + "\n");
            }

哈希表将字符串作为键。

这是我在错误文件中获得的输出(示例):
INSERTING: (test.txt,3)

INSERTING: (test2.txt,1)

PRINT DATUM VALUES: (test.txt,3)

PRINT DATUM VALUES: (test.txt,3)

The correct output for the print should be:
INSERTING: (test.txt,3)

INSERTING: (test2.txt,1)

PRINT DATUM VALUES: (test.txt,3)

PRINT DATUM VALUES: (test2.txt,1)

以test2.txt作为其位置的基准发生了什么?为什么用test.txt代替它?

基本上,我永远都不会两次看到相同的位置。 (这就是!datums.containsKey正在检查的内容)。不幸的是,我的行为很奇怪。

顺便说一下,这是在Hadoop上的reducer中。

我尝试将同步放置在此处,以防它在多个线程中运行,据我所知并非如此。尽管如此,同样的事情发生了。

最佳答案

根据this answer的说法,Hadoop的迭代器始终返回相同的对象,而不是创建新的对象以在每次循环时返回。

因此,保留对迭代器返回的对象的引用无效,并且将产生令人惊讶的结果。您需要将数据复制到新对象:

        while (itrtr.hasNext()) {
            Datum next = itrtr.next();
            // copy any values from the Datum to a fresh instance
            Datum insert = new Datum(next.location, next.value);
            if (!datums.containsKey(insert.location)) {
                datums.put(insert.location, insert);
            }
        }

这是对Hadoop Reducer documentation的引用,它确认了这一点:

关于java - 无法解释的Java Hashmap行为,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/20618678/

10-16 03:00