Pandas 库是基于 NumPy 的工具,该工具是为了完成数据分析任务而创建的。
一、下载 pandas 库
下载方法:在PyCharm的最下方“终端中”输入:pip install pandas -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
另外,若要导入 .xlsx 文件,则需要另外导入两个包:xlrd 和 openpyxl。
二、Series 对象
Series 类似于一维数组对象,由一组数据和另一组与之相关联的索引组成。
1. Series 对象的创建
可以通过数组和字典来构造 Series 对象。
在矩阵中可以指定 index 。
点击显/隐 Series 对象的创建代码
1 | import numpy as np |
2. Series 对象的访问
可以分别访问 index 数组和 values数组。
另外,若要访问指定数组的值,可以通过主数组的下标来访问,也可以采用通过 Series 对象的 index 标签来访问。
另外,若要访问多个元素,方法与获取一个元素类似,但也稍有不同。
点击显/隐 Series 对象的访问的代码
1 | x |
3. Series 对象的增删改操作
增加(或修改)操作都是直接对想要增加(或修改)的元素进行赋值。
在删除操作中,del x['a']
可直接删除索引为 a 的元素;x.pop('a')
会返回删除的值的内容;`x.drop(‘a’)`` 返回一个没有索引为a的元素的数组,即返回一个删除操作后的数组,x 对象其值并没有改变。
点击显/隐 Series 对象的增删改操作
1 | # 初始矩阵 x |
三、DataFrame 对象
Series 类似于二维数组对象
1. DataFrame 对象的创建
可以通过矩阵和字典来构造 DataFrame 对象
在矩阵中可以指定 index 和 columns,在字典中可以指定 index(columns 为字典的 key)
点击显/隐 DataFrame 对象的创建的代码
1 | 1,2,3,4]).reshape(2,2),index=['a','b'],columns=["A","B"]) # 通过矩阵来构造 DataFrame 对象,指定了 index 和 columns pd.DataFrame(np.array([ |
2. DataFrame 对象的访问
可以分别访问 index 数组、columns 数组和 values数组。
另外,若要访问指定数组的值,可以通过主数组的下标来访问,也可以采用通过 Data Frame 对象的 columns, index 标签来访问。
另外,若要访问多个元素,方法与获取一个元素类似,但也稍有不同。
点击显/隐 Series 对象的访问的代码
1 | y |
3. DataFrame 对象的增删改操作
增加(或修改)操作都是直接对想要增加(或修改)的元素进行赋值。
在删除操作中,del x['a']
可直接删除索引为 a 的元素;x.pop('a')
会返回删除的值的内容;`x.drop(‘a’)`` 返回一个没有索引为a的元素的数组,即返回一个删除操作后的数组,x 对象其值并没有改变。
点击显/隐 DataFrame 对象的增删改操作的代码
1 | >>> y |
四、NumPy 的基本运用
1. 数据统计
1) 最值与求和
若需要求每列最大值和最小值,使用函数 idxmax() 和 idxmin() 即可,axis=1 参数
可以改变为按行获值。;
若需要按列求和,使用函数 sum()、若需要累计按列求和,使用函数 cumsum(),axis=1 参数
可以改变为按行获值。
点击显/隐数据统计 · 最值与求和的代码
1 | # 初始化 y 值 y |
2) 去重
去重主要有两个函数:unique() 和 value_counts()。
unique() 函数的作用是去除重复的元素,若参数为 Series 对象,则返回一个 NumPy 数组。
value_counts() 函数的作用是返回一个 Series 对象,其中 index 为原 Series 对象中不重复的元素, values 为不重复的元素出现的次数。
五、导入与导出数据
1 | from pandas import * |
1 | >>> to_csv() |
评论区
欢迎你留下宝贵的意见,昵称输入QQ号会显示QQ头像哦~