目录

一. DataFrame 详解

        1. 数据清洗API 

        1.去重 :

        2. 去除空:

        3. 填充替换 :

        2. SparkSQL的shuffle分区设置

        3 . SparkSQL 数据写出操作

                3.1  写出到文件系统

                3.2  写出到数据库


一. DataFrame 详解

        1. 数据清洗API 

        1.1 去重 :

        1.2 去除空:

        1.3 填充替换 :

        2. SparkSQL的shuffle分区设置

                如何调整shuffle分区数量呢? spark.sql.shuffle.partitions

        3 . SparkSQL 数据写出操作

                3.1  写出到文件系统

常用参数说明:
    1- path:指定结果数据输出路径。支持本地文件系统和HDFS文件系统
    2- mode:当输出目录中文件已经存在的时候处理办法
        2.1- append:追加。如果文件已经存在,那么继续在该目录下产生新的文件
        2.2- overwrite:覆盖。如果文件已经存在,那么就先将已有的文件清除,再写入进去
        2.3- ignore:忽略。如果文件已经存在,那么不执行任何操作
        2.4- error:报错。如果文件已经存在,那么直接报错。会报错AnalysisException: path file:xxx already exists.
    3- sep:字段间的分隔符
    4- header:数据输出的时候,是否要将字段名称输出到文件的第一行。推荐设置为True
    5- encoding:文件输出的编码方式

                3.2  写出到数据库

01-10 11:38