我想在数据级别进行合并,以减少 strip 数量。这是因为我每小时都要处理文件,并且每个分区都创建许多较小的ORC文件。我知道配置单元串联可以在 strip 级别合并文件。如果我串联,文件合并只会在 strip 级别发生,就像要添加许多 strip 一样。我最终只有2-3行有多个条纹。我想减少条纹,增加行数。

最佳答案

merge.orcfile.stripe.level = false应该可以工作,但是我还没有在集群上工作。

我必须编写一个自定义程序来读取和合并文件。

关于hadoop - 在数据级别而非 strip 级别合并Orc文件,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/46346307/

10-16 05:51