如何计算MR作业中HDFS中的文件数量?

本文介绍了如何计算MR作业中HDFS中的文件数量?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧! 问题描述 我是Hadoop和Java的新手。我试图从我正在编写的MapReduce驱动程序中计算HDFS上文件夹中的文件数量。我想在不调用HDFS Shell的情况下执行此操作,因为我想在运行MapReduce作业时能够传入我使用的目录。由于我对Java的经验不足,我尝...

OAuth2在FIWARE Lab中访问Cosmos的WebHDFS

本文介绍了OAuth2在FIWARE Lab中访问Cosmos的WebHDFS的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧! 问题描述 我最近发现FIWARE Lab中对Cosmos的WebHDFS的访问已受到OAuth2的保护.我知道我必须在请求中添加OAuth2令牌才能继续使用WebHDFS,但是:I've recently seen the access t...

在Kubernetes上远程访问HDFS

本文介绍了在Kubernetes上远程访问HDFS的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧! 问题描述 我试图在minikube上(现在)设置HDFS,然后再在DEV kubernetes集群上设置HDFS,以便可以在Spark上使用它.我希望Spark在我的机器上本地运行,以便我可以在开发过程中以调试模式运行,因此它应该可以访问我在K8s上的HDFS.I a...

我如何通过java的hdfs协议访问hadoop?

本文介绍了我如何通过java的hdfs协议访问hadoop?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧! 问题描述 uri = 我发现了一种通过hftp连接到hadoop的方法,并且它工作正常HFTP://172.16.xxx.xxx:50070 /; System.out.println(uri:+ uri); Configuration conf = new ...

HDFS中的存储格式

本文介绍了HDFS中的存储格式的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧! 问题描述 HDFS如何存储数据? 我想以压缩的方式存储大文件。 例如:我有一个1.5 GB的文件,默认复制因子为3。 它需要(1.5)* 3 = 4.5 GB空间。 我相信目前没有隐式数据压缩发生。 是否有一种技术可以压缩文件并将其存储在HDFS中以节省磁盘空间? 解决方案 HDFS将任何...

如何通过R访问HDFS?

本文介绍了如何通过R访问HDFS?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧! 问题描述 因此,我正在尝试通过Windows计算机上的R远程连接到HDFS服务器.So, I am trying to connect to a HDFS server via R remotely on a Windows machine.但是,我将RStudio与"rhdfs"...

Flume:目录到Avro - > Avro转HDFS - 传输后无效

本文介绍了Flume:目录到Avro - > Avro转HDFS - 传输后无效的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧! 问题描述 我有用户编写AVRO文件,我想用Flume将所有这些文件移动到使用Flume的HDFS中。因此,我可以稍后使用Hive或Pig来查询/分析数据。 在客户端上安装了flume,并有一个SpoolDir源和AVRO接收器,如下所...

如何使用水槽将zip文件上传到hdfs接收器

本文介绍了如何使用水槽将zip文件上传到hdfs接收器的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧! 问题描述 我是flume的新手.我的flume代理以http服务器为源,从那里定期获取zip文件(压缩的xml文件).此zip文件很小(小于10 mb),我想放将zip文件解压缩到hdfs接收器中.请分享一些操作方法.我是否需要自定义拦截器.I am new to...

Flume HDFS接收器:从文件名中删除时间戳记

本文介绍了Flume HDFS接收器:从文件名中删除时间戳记的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧! 问题描述 我已经为我的应用程序配置了flume代理,其中源是Spooldir,接收器是HDFS I have configured flume agent for my application, where source is Spooldir and sin...

为什么 spark-shell 会因“HDFS 上的根暂存目录:/tmp/hive 应该是可写的"而失败?

本文介绍了为什么 spark-shell 会因“HDFS 上的根暂存目录:/tmp/hive 应该是可写的"而失败?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧! 问题描述 我是一个 spark noob,使用 Windows 10,试图让 spark 工作.我已经正确设置了环境变量,我也有winutils.当我进入 spark/bin 并输入 spark-shel...
© 2024 LMLPHP 关于我们 联系我们 友情链接 耗时0.008987(s)
2024-04-16 12:08:47 1713240527