笔记说明:本文是我的学习笔记,大部分内容整理自 还有部分片断知识来自网络搜索补充。
目录
0.数据来源
来源于这本书,黄红梅,张良均等.Python数据分析与应用[M].北京:人民邮电出版社,2018,的第五章附带数据。
CSDN的数据不可以免费共享,至少要一个金币,有能力的就去下载一下数据下载链接CSDN数据。不方便的,在底下头评论留言,留下邮箱号,我看到之后就会把数据发给你,或者你可以在这本书的出版社网站人民邮电出版社教育社区或者“泰迪杯数据挖掘比赛”泰迪杯数瑞思的网站上找这本书的附带资源,都是免费下载的。
0.1说明
这本书吧,第一部分是pandas和数据库MySQL的对接处理.sql数据。一般的公司的话,有专门的做数据分析的小组或者部门的,需要什么数据跟他们提需求让他们获取,拿.csv就好了。所以我就跳过了sql里面的inner join\outer join\主键合并。我的笔记直接是读取csv数据。
喔还有就是,做这行的话,sql是基础技能,一定要会基础的取数!
1.清洗数据
1.1检测与处理重复值
1.1.1记录重复
import pandas as pd
detail=pd.read_csv("D:\\codes\\python\\data\\detail.csv",
index_col=0,encoding='gbk')
#方法一:定义去重函数
def delrep(list1):
list2=[]
for i in list1:
if i in list1:
if i not in list2:
list2.append(i)
return list2
##去重
dishes=list(detail['dishes_name'])
print('去重前菜品总数是:',len(dishes))
dish=delrep(dishes)
print('方法一去重后数据总数是:',len(dish))
#方法二:利用集合唯一性
print('去重前菜品总数为:',len(dishes))
dish_set=set(dishes)
print(len(dish_set))
。
#方法三:.drop_duplicates
pd.DataFrame(series).drop_duplicates(self,subset=None,keep='first',
inplace=False)
dishes_name=detail['dishes_name'].drop_duplicates()
print(len(dishes_name))