笔记说明：本文是我的学习笔记，大部分内容整理自还有部分片断知识来自网络搜索补充。

0.数据来源

来源于这本书，黄红梅,张良均等.Python数据分析与应用[M].北京:人民邮电出版社,2018，的第五章附带数据。
CSDN的数据不可以免费共享，至少要一个金币，有能力的就去下载一下数据下载链接CSDN数据。不方便的，在底下头评论留言，留下邮箱号，我看到之后就会把数据发给你，或者你可以在这本书的出版社网站人民邮电出版社教育社区或者“泰迪杯数据挖掘比赛”泰迪杯数瑞思的网站上找这本书的附带资源，都是免费下载的。

0.1说明

这本书吧，第一部分是pandas和数据库MySQL的对接处理.sql数据。一般的公司的话，有专门的做数据分析的小组或者部门的，需要什么数据跟他们提需求让他们获取，拿.csv就好了。所以我就跳过了sql里面的inner join\outer join\主键合并。我的笔记直接是读取csv数据。
喔还有就是，做这行的话，sql是基础技能，一定要会基础的取数！

1.清洗数据

1.1检测与处理重复值

1.1.1记录重复

import pandas as pd
detail=pd.read_csv("D:\\codes\\python\\data\\detail.csv",
                   index_col=0,encoding='gbk')

#方法一：定义去重函数
def delrep(list1):
    list2=[]
    for i in list1:
        if i in list1:
            if i not in list2:
                list2.append(i)
    return list2

##去重
dishes=list(detail['dishes_name'])
print('去重前菜品总数是：',len(dishes))
dish=delrep(dishes)
print('方法一去重后数据总数是：',len(dish))

#方法二：利用集合唯一性
print('去重前菜品总数为：',len(dishes))
dish_set=set(dishes)
print(len(dish_set))

。

#方法三：.drop_duplicates
pd.DataFrame(series).drop_duplicates(self,subset=None,keep='first',
            inplace=False)

dishes_name=detail['dishes_name'].drop_duplicates()
print(len(dishes_name))

贫僧不懂

4.pandas数据预处理（未完待续）

目录

0.数据来源

0.1说明

1.清洗数据

1.1检测与处理重复值

1.1.1记录重复