我在 HDFS 上有 78 GB 大小的文件

我需要在它上面创建一个 Impala 外部表来对可用数据执行一些分组和聚合

问题
该文件包含标题。

问题
有什么方法可以在读取文件时跳过文件中的标题并对其余数据进行查询。

虽然我有办法通过将文件复制到本地然后删除 header 然后将更新的文件再次复制到 HDFS 来解决问题,但这不可行,因为文件大小太大

请建议是否有人有任何想法...

任何建议将不胜感激......

提前致谢

最佳答案

UPDATE 或 DELETE 行操作在 Hive/Impala 中不可用。所以你应该模拟 DELETE 作为

  • 将数据文件加载到临时 Hive/Impala 表中
  • 在临时表上使用 INSERT INTO 或 CREATE TABLE AS 创建需要表
  • 关于hadoop - 如何跳过impala外部表中的文件头?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/21935155/

    10-16 02:33