以下是搜索内容: 关闭

  • 首页
  • 日志
  • 友情链接
  • 关于我

KoiNL.

愿世间美好 温柔以待

“锦鲤握运,未离我韵”

“愿好运常在”

18 分类
0 标签
16 归档
  • 小站首页
  • 个人日志
  • 友情链接
  • 关于自己
  • 我的工具
站点信息

文章数目: 84 篇

最近动态: 2天前

上线时间: 531天

当前版本: v3.0.0

第四章 数据预处理

分类: Data-Processing-and-Analysing
标签:

创建日期:2022-09-07 12:07:05

数据清洗与准备

正则表达式

数据规整

为什么要有数据预处理技术?在数据挖掘的时候,现实世界的不完整,不一致的“脏”数据会致使无法直接进行数据挖掘。因此有了数据预处理技术在数据挖掘之前使用,会大大提高数据挖掘的质量,减少实际进行数据挖掘所需要的时间。
数据预处理有很多种方法:数据清理,数据集成,数据变换,数据规约等。

一、数据清洗与准备

需要被清洗的数据一般有以下三种类型:重复数据、异常数据(如 “age=’-10’”)、缺失数据(如缺少属性值)。下面逐一介绍:

1.数据清洗准备

1)重复数据的预处理

重复数据过多,会导致结果具有错误的倾向性

2)异常数据的预处理

也被称为噪声数据。
例如,一个人的身高为100米,这是一个错误数据,因此需要被剔除掉。常用的检测方法有:箱线图,简单统计量、3?原则;常用的处理方法有删除法、插补法、替换法。

3)缺失数据的预处理

如信息统计中年龄和性别丢失的情况,数据缺失的预处理方法主要有四种:均值补差、同类均值补差、极大似然估计、多重补差。

2.数据清洗

1) 重复数据

获取唯一值的方法是采用 unique() 函数,用于 Series 对象。

1
2
3
>>> ser=Series([1,2,3,4,5,4,4,4,4,2,2])
>>> ser.unique()
array([1, 2, 3, 4, 5], dtype=int64)

获取唯一值的方法是采用 drop_duplicates() 函数,用于 DataFrame 对象。

1
2
3
4
5
6
7
8
9
10
>>> dfr=DataFrame({'a':[1,2,1],'b':[1,4,1],'c':[1,2,1]})
>>> dfr
a b c
0 1 1 1
1 2 4 2
2 1 1 1
>>> dfr.drop_duplicates()
a b c
0 1 1 1
1 2 4 2

2) 缺失数据

数据删除

1
2
删除表中含有空格的行:
df.dropna(how='any')

数据填补

  • 替换缺失值。对于数值型的数据,可以使用平均数或者中位数等方法补足
    1
    2
    df['price'].fillna(df['price'].mean()
    df['price'].fillna(df['price'].median()
  • 拟合缺失值。如果是数值变量,采用回归模型;如果是分类变量,采用分类模型
  • 不处理。如果拥有较高的容忍度或者更灵活的处理方法,就可以在预处理阶段不做处理

3) 异常数据

1) 异常点检测

箱线图、正太分布图、模型法
2)异常点处理①不处理
②填充
③删除
④编码

二、正则表达式

快速匹配,不过…也太多了点,跳过跳过后来补

三、数据规整

进行了数据清洗准备后,需要对数据进行规整处理

1.聚合、分组、数据透视

1) 分组与聚合

浏览量

评论区

欢迎你留下宝贵的意见,昵称输入QQ号会显示QQ头像哦~

目录

  1. 1. 数据清洗与准备
  2. 2. 正则表达式
  3. 3. 数据规整
  4. 4. 一、数据清洗与准备
    1. 4.1. 1.数据清洗准备
      1. 4.1.1. 1)重复数据的预处理
      2. 4.1.2. 2)异常数据的预处理
      3. 4.1.3. 3)缺失数据的预处理
    2. 4.2. 2.数据清洗
      1. 4.2.1. 1) 重复数据
      2. 4.2.2. 2) 缺失数据
      3. 4.2.3. 3) 异常数据
  5. 5. 二、正则表达式
  6. 6. 三、数据规整
    1. 6.1. 1.聚合、分组、数据透视
      1. 6.1.1. 1) 分组与聚合

上一篇: 第一章 分布式文件系统(HDFS)概述

下一篇 第三章 数据可视化(Matplotlib)

公告栏

《 

 》

Hello~近期剽窃本站内容频发,本站唯一指定网站:https://koinl.github.io。请认准。点击点击此处选择进入。
回到顶部
查看评论

Power By Hexo.

Theme:koinl.

信息来源于锦鲤未离