我需要掩盖Spark数据框的一列以列出以便以后用于matplotlib

df.toPandas()[col_name].values.tolist()


似乎有高性能开销,此操作大约需要18秒
还有其他方法可以做到这一点或提高性能吗?

最佳答案

如果您确实需要本地列表,则可以在这里做很多事情,但是一个改进是仅收集单个列而不是整个DataFrame

df.select(col_name).flatMap(lambda x: x).collect()

07-26 05:06