数据清洗与准备
正则表达式
数据规整
为什么要有数据预处理技术?在数据挖掘的时候,现实世界的不完整,不一致的“脏”数据会致使无法直接进行数据挖掘。因此有了数据预处理技术在数据挖掘之前使用,会大大提高数据挖掘的质量,减少实际进行数据挖掘所需要的时间。
数据预处理有很多种方法:数据清理,数据集成,数据变换,数据规约等。
一、数据清洗与准备
需要被清洗的数据一般有以下三种类型:重复数据、异常数据(如 “age=’-10’”)、缺失数据(如缺少属性值)。下面逐一介绍:
1.数据清洗准备
1)重复数据的预处理
重复数据过多,会导致结果具有错误的倾向性
2)异常数据的预处理
也被称为噪声数据。
例如,一个人的身高为100米,这是一个错误数据,因此需要被剔除掉。常用的检测方法有:箱线图,简单统计量、3?原则;常用的处理方法有删除法、插补法、替换法。
3)缺失数据的预处理
如信息统计中年龄和性别丢失的情况,数据缺失的预处理方法主要有四种:均值补差、同类均值补差、极大似然估计、多重补差。
2.数据清洗
1) 重复数据
获取唯一值的方法是采用 unique() 函数,用于 Series 对象。
1 | >>> ser=Series([1,2,3,4,5,4,4,4,4,2,2]) |
获取唯一值的方法是采用 drop_duplicates() 函数,用于 DataFrame 对象。
1 | >>> dfr=DataFrame({'a':[1,2,1],'b':[1,4,1],'c':[1,2,1]}) |
2) 缺失数据
数据删除
1 | 删除表中含有空格的行: |
数据填补
- 替换缺失值。对于数值型的数据,可以使用平均数或者中位数等方法补足
1
2df['price'].fillna(df['price'].mean()
df['price'].fillna(df['price'].median() - 拟合缺失值。如果是数值变量,采用回归模型;如果是分类变量,采用分类模型
- 不处理。如果拥有较高的容忍度或者更灵活的处理方法,就可以在预处理阶段不做处理
3) 异常数据
1) 异常点检测
箱线图、正太分布图、模型法
2)异常点处理①不处理
②填充
③删除
④编码
二、正则表达式
快速匹配,不过…也太多了点,跳过跳过后来补
三、数据规整
进行了数据清洗准备后,需要对数据进行规整处理
评论区
欢迎你留下宝贵的意见,昵称输入QQ号会显示QQ头像哦~