我想为机器学习项目下载大量数据文件。这些下载需要相当长的时间,我希望加快下载速度。

我有一个Hadoop集群,我想可以利用它来获得更快的下载速度。无论如何,是否有将文件下载分布在整个群集上以提高速度的方法?

最佳答案

如果您有文件列表和可用的sparkcontext,则只需执行sparkContext.parallelize(fileList).foreach(downloadMethod(_)),它将自动在执行程序上分配下载任务。

10-07 18:23