2024 1.9 Spark_SQL , 数据清洗API , 写出操作

一. DataFrame 详解

1. 数据清洗API

1.去重 :

2. 去除空:

3. 填充替换 :

2. SparkSQL的shuffle分区设置

3 . SparkSQL 数据写出操作

3.1 写出到文件系统

3.2 写出到数据库

一. DataFrame 详解

1. 数据清洗API

1.1 去重 :

1.2 去除空:

1.3 填充替换 :

2. SparkSQL的shuffle分区设置

如何调整shuffle分区数量呢? spark.sql.shuffle.partitions

3 . SparkSQL 数据写出操作

3.1 写出到文件系统

常用参数说明：
    1- path：指定结果数据输出路径。支持本地文件系统和HDFS文件系统
    2- mode：当输出目录中文件已经存在的时候处理办法
        2.1- append：追加。如果文件已经存在，那么继续在该目录下产生新的文件
        2.2- overwrite：覆盖。如果文件已经存在，那么就先将已有的文件清除，再写入进去
        2.3- ignore：忽略。如果文件已经存在，那么不执行任何操作
        2.4- error：报错。如果文件已经存在，那么直接报错。会报错AnalysisException: path file:xxx already exists.
    3- sep：字段间的分隔符
    4- header：数据输出的时候，是否要将字段名称输出到文件的第一行。推荐设置为True
    5- encoding：文件输出的编码方式

白白的wj

2024 1.9 Spark_SQL , 数据清洗API , 写出操作

一. DataFrame 详解

1. 数据清洗API

1.1 去重 :

1.2 去除空:

1.3 填充替换 :

2. SparkSQL的shuffle分区设置

3 . SparkSQL 数据写出操作

3.1 写出到文件系统

3.2 写出到数据库