我正在使用spark 1.6,我的目标是像在 hive 脚本中一样创建外部 hive 表。为此,我首先读取分区的avro文件并获取该文件的架构。现在我在这里停止了,我不知道如何将该模式应用于我的创建表。我使用scala。需要帮助的人。
最佳答案
最后,我用老式的方式自己做。借助以下代码:
val rawSchema = sqlContext.read.avro("Path").schema
val schemaString = rawSchema.fields.map(field => field.name.replaceAll("""^_""", "").concat(" ").concat(field.dataType.typeName match {
case "integer" => "int"
case smt => smt
})).mkString(",\n")
val ddl =
s"""
|Create external table $tablename ($schemaString) \n
|partitioned by (y int, m int, d int, hh int, mm int) \n
|Stored As Avro \n
|-- inputformat 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat' \n
| -- outputformat 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat' \n
| Location 'hdfs://$path'
""".stripMargin
注意列名不能以
_
开头, hive 不能解析integer
。我想说的是这种方式不是灵活的,而是可行的。如果有人有更好的主意,请评论。