我在 HDFS 上有 78 GB 大小的文件
我需要在它上面创建一个 Impala 外部表来对可用数据执行一些分组和聚合
问题
该文件包含标题。
问题
有什么方法可以在读取文件时跳过文件中的标题并对其余数据进行查询。
虽然我有办法通过将文件复制到本地然后删除 header 然后将更新的文件再次复制到 HDFS 来解决问题,但这不可行,因为文件大小太大
请建议是否有人有任何想法...
任何建议将不胜感激......
提前致谢
最佳答案
UPDATE 或 DELETE 行操作在 Hive/Impala 中不可用。所以你应该模拟 DELETE 作为
关于hadoop - 如何跳过impala外部表中的文件头?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/21935155/