Pandas是基于Numpy的一种工具,这个工具是为了解决数据分析任务而创建的,pandas纳入了大量的库和一些标准的数据模型,提供了高效的操作大型数据集所需的工具,pandas提供了大量能使我们快速便捷的处理数据的函数和方法。Pandas是使Python成为强大而高效的数据分析环境的重要因素之一。另外
在pandas包含了三种数据结构:
SeriesDataFrameTime-series下面我们就介绍一下Series和DataFrame这两种常用的数据结构,Time-series时间序列,我们后期会专门在开一篇文章仔细的去讲述一下。
一、Series
Series是一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率,并且series可以运用Ndarray或字典的几乎所有索引操作和函数,融合了字典和ndarray的优点。
1、series索引
Series类型是由一组数据及与之相关的数据索引组成
自动索引:不创建系统自动创建索引。
自定义索引:自定义索引,创建完自定义索引后,自动索引也在。
Series是一维带’标签’数组,它的基本操作类似Ndarray和字典,genuine索引对齐。
2、创建对象
Series(列表/元组/字典/标量/Numpy数组/range等序列,<index=param1>)不写index会自动创建索引,如果写定指定索引,index可以是列表,numpy数组。
列子如下:
参数:列表或元组,并分别创建自动索引和手动索引(自动索引还在)可以看出index('a', 'b', 'c', 'd', 'e')分别对应1,3,5,7,9
参数:字典,并分别创建自动索引和手动索引字典的key作为索引,value作为值
如果字典中在设置index,就相当于是从字典中挑选数据
参数:标量Index可以是列表,元组,range序列,numpy数组
参数:numpy数组(ndarray)3、属性
Series的主要属性包括index和values两部分
属性
说明
Values
获取数据,底层存储的是numpy数组
Index
获取索引
还有两个不太重要的属性
Name
Series的name(在DataFrame中没有Name属性)
Index
索引的name
还有一些类似于numpy数组的属性,比如dtype和shape等。
下面是一些属性的列子:
3.1Values值
3.2Index索引
3.3Name,series的名字
3.4Index,series索引的名字
4、选取
series类型的选取类似numpy数组,索引的方式相同,采用[],numpy中的运算和操作可用于series类型,可以通过自定义索引的列表进行切片也可以通过自动索引进行切片,如果存在自定义索引,则一同被切片series类型的操作类似于python字典类型:通过自定义索引访问,保留字in操作,使用.get()方法
PS:.get(key,default=none)函数返回指定键的值,如果值不再字典中则返回默认值(默认为空),key是要查找的键,default是设置的默认值。
5、series类型对齐操作
Series+series,series类型在运算中会自动对齐不同索引的数据。
Series类型对齐6、获取,设置,删除等
6.1获取值
由于具备numpy数组和字典的特性,series可以像使用numpy数组的索引切片或用字典的get一样来用。
6.2设置/修改:索引和切片
将a修改为11将b,c修改为100将b,c改为101和102将b,c改为103和104(注意这次用的是逗号,表示单独挑选出了b和c,上面是b到c)6.3删除
drop方法(结果改变)和pop(像字典的用法,改变自身)
Drop:删除a,结果改变删除b和dPop:二、DataFrame
DataFrame类型由公用相同索引的一组序列组成,是一个表格型的数据类型,每列值类型可以不同。DataFrame即有行索引也有列索引:
Index axis = 0(默认)Column axis = 1(默认)DataFrame常用于表达二维数据,但可以表达多维数据,基本操作类似于Series,依据行列索引
1、DataFrame的创建
1.1、从内存中创建
语法:
DataFrame(字典/列表/numpy数组/DataFrame,index=0,columns=1)也可以在创建的时候不指定index和columns,在创建完后单独设置这两个属性。
常用的参数:
字典:key作为列名,value作为该列的值。列表:作为值Numpy数组:作为值例子:
列表手动创建行索引和列索引,方法1:创建的时候就设置好行列索引
手动创建行列索引,方法2:创建的时候设置自动索引,之后在修改
二维numpy数组手动输入数组
使用方法生成数组
字典(key是列名,value可以是数据,也可以是series类型)手动创建列索引,行索引自动创建
手动创建列索引,手动创建行索引
1.2、从文件中创建
DataFrame可以从文件中创建:
文件第一行默认作为列索引(columns),默认为没有行索引,可以通过indx_dol参数设置第1列或前几行作为行索引。如果第一行不作为列索引,设置header=none。
文件编码为utf-8,可以通过参数encoding设置编码。
方式
作用
pd.read_csv(filename)
从CSV文件导入数据, 文件是逗号分隔。
pd.read_table(filename,<sep='\t'>)
从限定分隔符的文本文件导入数据,默认是 tab
pd.read_excel(filename)
从Excel文件导入数据
pd.read_sql(query, connection_object)
从SQL表/库导入数据
pd.read_json(json_string)
从JSON格式的字符串导入数据
pd.read_html(url)
解析URL、 字符串或者HTML文件, 抽取其中的tables表格
pd.read_clipboard()
从你的粘贴板获取内容, 并传给read_table()
下面我们就将上面的这么多方法一个个演示一遍,文章中用的这些数据可以自己生成对应格式的就可以了,这个是不影响的,只要自己掌握了这些知识就好。
Pd.read_csv(filename):从CSV文件导入数据,文件是逗号分隔。编码是utf-8编码是gbk读取的时候,可以带行索引,用index_col=列
不把第一行作为列索引(在有些情况下,文件中全部都是数据)2)pd.read_table(filename)
查看DataFrame的信息http://df()
3) pd.read_excel(filename):从Excel文件中导入数据
4) pd.read_sql(query, connection_object):从SQL表/库导入数据
SQLAlchemy是python编程语言下的一款ORM框架,该框架建立在数据库API上,使用关系对象映射进行数据库操作,简言之便是:将对象转换成SQL
首先导入两个模块,连接数据库建议用sqlalchemy,使用pymysql可能会出问题
Sqlalchemy.create(‘mysql+pymysql://用户名:用户名密码@localhost:编号/数据库名称’)
不清楚用户名和编号的可以使用mysql workbench查看
将文件写入到数据库中
Test是要在数据库中创建的表名,表示的意思是将df的数据传入到数据库lianxi下的表test中
5) pd.read_json(json_string)
6) pd.read_html(url)
首先要安装html5lib,pip install html5lib
7) pd.read_clipboard():从剪切板导入数据
首先复制一段文字
然后运行代码
2、写入文件
写入数据后,前往输入路径下查看文件
方式
作用
df.to_csv(filename)
导出数据到CSV文件
df.to_excel(filename)
导出数据到Excel文件
df.to_sql(table_name, connection_object)
导出数据到SQL表
df.to_json(filename)
以Json格式导出数据到文本文件
1)第一种方式:将行索引和列索引肉写入到文件
df.to_csv(filename):将文件导出到CSV文件中df.to_excel(filename):导出数据到Excel文件df.to_json(filename):以Json格式导出数据到文本文件2)第二种方式:行索引不写入
3)第三种方式:行和列索引都不写入
3、DataFrame的属性
属性
说明
Values
值
Index
行索引
Columns
列索引
Index
行索引名字
Columns
列索引名字
其他属性:dtypes,shape等,可以用numpy数组等等大部分属性
查看自身的属性(重要):值,行索引,列索引查看自身属性(不重要):列索引名字,行索引名字查看其他属性:可以使用ndarray的属性4、DataFrame的函数和方法
4.1、取值和修改(索引,切片,ix,loc,iloc)
DataFrame的取值和修改应该从三个层次考虑:行列,区域,单元格。每个层次都有其对应的方法:
行列df[],df.ix
区域df.ix[]
单元格df.ix
其中ix官方推荐使用iloc和loc代替
loc和iloc的用法和ix基本一样,只是loc参数用手动索引,iloc用自动索引,ix混用
取行:
取列:
5、其他函数或方法
5.1查看数据
df.head(n): 查看DataFrame对象的前n行df.tail(n): 查看DataFrame对象的最后n行df.shape: 查看行数和列数http://df(): 查看索引、 数据类型和内存信息df.describe(): 查看数值型列的汇总统计s.value_counts(dropna=False): 查看Series对象的唯一值和计数dfly(函数):把df应用于某个函数5.2、清洗数据
dflumns = ['a','b','c','d','e']: 重命名列名df.isnull(): 检查DataFrame对象中的空值, 并返回一个Boolean数组df.notnull(): 检查DataFrame对象中的非空值, 并返回一个Boolean数组df.dropna(): 删除所有包含空值的行df.dropna(axis=1): 删除所有包含空值的列df.dropna(axis=1,thresh=n): 删除所有小于n个非空值的列
df.fillna(x): 用x替换DataFrame对象中所有的空值s.fillna(san()): 用某列的均值来填充某列的空值s.astype(float): 将Series中的数据类型更改为float类型s.replace(1,'one'): 用‘one’ 代替所有等于1的值dfame(columns=lambda x: x + '1'): 批量更改列名dfame(columns={'old_name': 'new_ name'}): 选择性更改列名df.set_index('column_one'): 更改索引列dfame(index=lambda x: x + 1): 批量重命名索引5.3、数据规整
df[df[col] > 0.5]: 选择col列的值大于0.5的行dfrt_values(col1): 按照列col1排序数据, 默认升序排列dfrt_values(col2, ascending=False): 按照列col1降序排列数据dfrt_values([col1,col2], ascending=[True,False]):先按列col1升序排列, 后按col2降序排列数据dfby(col): 返回一个按列col进行分组的Groupby对象dfby([col1,col2]): 返回一个按多列进行分组的Groupby对象dfby(col1).agg(npan): 返回按列col1分组的所有列的均值dfby(col1).sum(): 返回按列col1分组的所有列的和dfby(col1)an()[col2]: 返回按列col1进行分组后, 列col2的均值dataly(npan): 对DataFrame中的每一列应用函数npandataly(np.max,axis=1): 对DataFrame中的每一行应用函数np.maxdf.pivot_table(index=col1, values=[col2,col3], aggfunc=npan):创建一个按列col1进行分组, 并计算col2和col3各自均值的数据透视表pd.crosstab(dfl1, dfl2): 按照指定的行(col1)和列(col2)统计分组频数5.4、数据合并
df1end(df2): 将df2中的行添加到df1的尾部pdncat([df1, df2],axis=0):将df2中的行添加到df1的底部(axis=1的时候将df2的列添加到df1的尾部)5.5、数据统计
df.describe(): 查看数据值列的汇总统计dfan(): 返回所有列的均值dfrr(): 返回列与列之间的相关系数dfunt(): 返回每一列中的非空值的个数df.max(): 返回每一列的最大值df.min(): 返回每一列的最小值dfdian(): 返回每一列的中位数df.std(): 返回每一列的标准差很多时候,我们在做表格时,有些单元格是没有数据的,为了表示没有数据的单元格确实是没有数据的,并不是因为忘记输入而导致的,我们需要在空白单元格加入一杠“—”
1、打开“20XX年1月份XXX有限责任公司员工工资表”,表中“奖罚”和“销售提成”两列有些空白单元格,如图所示:这些单元格式没有数据的,需要输入一杠“—”
2、单击鼠标左键,选中“奖罚”,按住鼠标左键往右拖动选中“销售提成”然后按住鼠标不动,往下拖动到表格底部,选中“奖罚”、“销售提成”这两列。
3、按键盘上CTRL+G键,出现定位对话框,在“定位”选项下选择”空值“,然后选择定位。我们发现空白的单元格属于被选中的状态,如图所示:
4、在“销售提成”下的第一个空白单元格输入“—”,然后按键盘上Ctrl+enter键,即可将所有空白单元格填充上一杠“—”,如图所示: