我知道一个事实,即Hive Metastore用于存储我们在HIVE中创建的表的元数据,但是为什么需要spark的Metastore,Metastore和Spark之间的默认关系是什么?

spark SQL是否正在使用metasore,如果这样做的话是用来存储数据帧元数据吗?

为什么默认情况下,即使我不使用任何sql库,spark也会默认检查metastore连接性?

最佳答案

这是spark-2.2.0 documentation的解释

如果未由hive-site.xml配置,那么上下文会自动在当前目录中创建metastore_db并创建一个由spark.sql.warehouse.dir配置的目录,该目录默认为Spark应用程序在当前目录中的目录spark-househouse开始。请注意,自Spark 2.0.0起,hive-site.xml中的hive.metastore.warehouse.dir属性已被弃用。而是使用spark.sql.warehouse.dir指定仓库中数据库的默认位置。

关于apache-spark - Spark和Metastore关系,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/46346867/

10-10 08:12