1. Python数据分析介绍及环境搭建

1.1python数据分析简介

1.1.1 python做数据分析的优势

可以独立完成数据分析的各种任务
功能强大,有海量的开源包(pandas,numpy...)
处理海量数据效率高
开源免费

1.1.2 常用python数据分析开源库

numpy:用于数组计算
pandas:分析结构化数据的工具集
- series:类似一维数组的对象(一行数据或者一列数据)
- dataframe:表格型数据结构(有行有列的数据)
matplotlib,seaborn:可视化开源库
scikit-learn:基于python语言的机器学习开源库
jupyter notebook:不是开源库,是数据分析的首选开发环境,类似于pycharm

1.2 python数据分析环境搭建

1.2.1 anaconda简介

是数据分析平台
可以管理安装包和虚拟环境
概念:是一个包含了特定 Python 解析器以及一些软件包的自包含目录
作用
- 隔离不同python版本或者相同开源库的不同版本
- 能够让不同版本的代码在不同的虚拟环境中运行
虚拟环境常用终端行命令

# 创建虚拟环境 python=3.8 指定python版
conda create -n 虚拟环境名称 python=3.8
# 进入虚拟环境
conda activate 虚拟环境名称
# 退出虚拟环境
conda deactivate
# 删除虚拟环境
conda remove -n 虚拟环境名称 --all
# 查看已创建的虚拟环境
conda env list

1.2.3 anaconda的包管理功能

# 安装python的第三方包
pip install 包名
# 卸载python的第三方包
pip uninstall 包名

# 安装其他包速度慢可以指定国内镜像
# 阿里云：https://mirrors.aliyun.com/pypi/simple/
# 豆瓣：https://pypi.douban.com/simple/
# 清华大学：https://pypi.tuna.tsinghua.edu.cn/simple/
# 中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/

pip install 包名 -i https://mirrors.aliyun.com/pypi/simple/  #通过阿里云镜像安装

1.2.4 jupyter notebook的使用

终端启动

这种方式先启动cmd，通过切换虚拟环境和磁盘位置，再启动Jupyter notebook

# 可选操作，切换虚拟环境，使用不同的python解释器和包,默认使用base环境
conda activate 虚拟环境名字
# 切换磁盘位置,到指定目录下启动
cd d:/test
# 启动jupyter notebook
jupyter notebook
# 将终端网址复制到浏览器 
# http://127.0.0.1:8888/?token=b37f5e4da9892205efd9d87db55260054232ddc0ebb25e78

常用快捷键【知道】
- Jupyter Notebook中分为两种模式：命令模式和编辑模式
- 两种模式通用快捷键
  - Shift+Enter，执行本单元代码，并跳转到下一单元
  - Ctrl+Enter，执行本单元代码，留在本单元
- 按ESC进入命令模式
  - Y，cell切换到Code模式
  - M，cell切换到Markdown模式
  - A，在当前cell的上面添加cell
  - B，在当前cell的下面添加cell
  - 双击D：删除当前cell
- 编辑模式：按Enter进入，或鼠标点击代码编辑框体的输入区域
  - 回退：Ctrl+Z（Mac:CMD+Z）
  - 补全代码：变量、方法后跟Tab键
  - 为一行或多行代码添加/取消注释：Ctrl+/（Mac:CMD+/）
使用markdown
- 在命令模式(ESC)中，按M即可进入到Markdown编辑模式
- markdown基本语法:标题和缩进

# 一级标题
## 二级标题
### 三级标题
- 一级缩进
	- 二级缩进
  	- 三级缩进

1.3 pandas dataframe入门

1.3.1导包并加载数据

import pandas as pd
df = pd.read_csv('.../xxx.csv')
df = pd.read_csv('.../xxx.tsv',sep='\t')
...

csv和tsv文件的区别
- csv是以逗号作为行内数据的分隔符
- tsv是以\t（table）作为行内数据的分隔符
- 二者都是以换行符\n为行与行之间的分割
Pandas导出导入数据
- pd.read_xxx()读取(导入)数据注意是pandas.read_xxx
- df.to_xxx('.../xxx.xxx')保存(导出)数据注意是dataframe.to_xxx
1.3.2 查看部分数据
加载列数据

# 加载一列数据
df['列名']

# 加载多列数据
df[['列名1','列名2','列名3'...]]

加载行数据或者行列部分数据

# 通过行索引序号加载前五条数据,head(n=),默认n=5,可以手动传入想查看的行数
df.head()

# # 通过行索引序号加载后五条数据,tail(n=),默认n=5,可以手动传入想查看的行数
df.tail()

loc:根据行索引标签/值加载行数据,还可以通过切片方法获取数据,左闭右闭

# 加载一行数据
df.loc['行索引值']

# 加载多行数据
df.loc[['行索引值1','行索引值2','行索引值3'...]]
df.loc['行索引值1':'行索引值2']

# 加载某行某列数据
df.loc[['行索引值'],['列索引值']]

# 加载多行多列
df.loc[['行索引值1','行索引值2'...],['列索引值1','列索引值2'...]]
df.loc['行索引值1':'行索引值2','列索引值1':'列索引值2']

iloc:根据行索引序号加载行数据,还可以通过切片方法获取数据,左闭右开

# 加载一行数据
df.iloc['行索引序号']

# 加载多行数据
df.iloc[['行索引序号1','行索引序号2','行索引序号3'...]]
df.iloc['行索引序号1':'行索引序号2']

# 加载某行某列数据
df.iloc[['行索引序号'],['列索引序号']]

# 加载多行多列
df.iloc[['行索引序号1','行索引序号2'...],['列索引序号1','列索引序号2'...]]
df.iloc['行索引序号1':'行索引序号2','列索引序号1':'列索引序号2']

1.3.3 分组聚合

分组聚合表达式

# 对一列分组一列聚合
df.groupby('分组的列名')['聚合的列名'].聚合函数()

# 对多列分组多列聚合 注意多列分组聚合时,聚合部分为两个列表,否则报错
df.groupby(['分组的列名1','分组的列名2'...])[['聚合的列名1','聚合的列名2'...]].聚合函数()

常用的聚合函数

sum() # 求和
mean() # 求平均
std() # 标准差
max() # 最大值
min() # 最小值
count() # 非空值个数
nunique() # 唯一值个数

1.4 pandas数据结构

1.4.1 Series常用操作

Series创建:传入一个Python列表
- 如果传入的数据类型是统一的数字，那么最终的dtype类型是int64
- 如果传入的数据类型是统一的字符串，那么最终的dtype类型是object
- 如果传入的数据类型是多种类型，那么最终的dtype类型也是object

# data=,传入要python列表;index=指定行索引,不传的话行索引默认为0,1,2...
pd.Series(data=,index=)

# 例子1
s = pd.Series(['banana', 42])
# 输出结果如下
0    banana
1        42
dtype: object

#例子2
s = pd.Series(['Wes McKinney','Male'],index = ['Name','Gender'])
# 输出结果如下
Name      Wes McKinney
Gender            Male
dtype: object

Series常用属性

s.index # 获取行索引,属性
s.keys() # 获取行索引,方法
# 属性后面不加(),方法后面加()

s.values # 获取值

Series常用方法

s.mean() # 平均值
s.max() # 最大值
s.min() # 最小值
s.std() # 标准差
s.value_counts() # 不同值(不同类别)的条目数量
s.count() # 非空值个数

s.describe() 
# 输出数值列统计描述:①count非空值个数,②mean平均值,③std标准差,④max最小值,⑤25%四分之一分位值,⑥50%二分之一分位值,⑦75%四分之三分位值,⑧最大值
# 输出非数值列统计描述:①count非空值个数,②unique唯一值个数,③top出现次数最多的值,④freq出现最多值的次数

通过布尔值列表获取Series部分数据

s[[True,False,True,False]]
# 返回为True的值,最后返回两个值

Series运算
- series和数值型变量计算
  - 变量和series中的每个元素逐一进行计算
- 两个Series之间计算
  - 根据索引匹配规则进行计算,相同的索引进行计算,不同的索引无法计算,用NaN填充

1.4.2 DataFrame常用操作

常用属性和方法

df.shape # 查看行数,列数
df.size # 查看数据个数
len(df) # 查看数据行数
df.count() # 查看各列非空值个数
df.max() # 查看各列最大值,数值列返回最大值,非数值列返回出现次数最多的值
df.min()
df.describe() # 返回数值列统计描述

DataFrame的布尔索引
- 同Series一样，DataFrame也可以使用布尔索引获取数据子集

# 获取前5行数据中的第1、2、4个
movie.head()[[True,True,False,True,False]]

dataframe的运算
- 当DataFrame和数值进行运算时，DataFrame中的每一个元素会分别和数值进行运算
- 两个DataFrame之间进行计算，和series一样会根据索引的值进行对应计算
- 当两个DataFrame索引值不能对应时，不匹配的会返回NaN
- DataFrame中如果有非数值列,只能进行相加或者相乘的操作,对非数值列进行复制,其他计算会发生报错
指定某列为DataFrame索引

df.set_index('列名') # 括号里列为指定索引列
pd.read_csv('path',index_col='列名') # 加载数据时通过index_col指定某列为df的索引

df.reset_index() # 重置索引,变为0,1,2,3...

修改行名列名

# 方法一
df.rename(index={'原行名1':'新行名1','原行名2':'新行名2'...},columns={'原列名1':'新列名1','原列名2':'新列名2'...},inplace=True)
# index=,columns= 后跟要修改的行列名字典
# inplace=True 在源数据上修改,默认False,在内存或者副本上修改,源数据并没有修改
# 涉及到df修改删除操作,不指定inplace=True,默认源数据不会进行修改,或者将修改的数据重新保存为一个变量名

# 方法二
将df.index 和 df.columns属性提取出来，修改之后，再赋值回去

添加列
- 通过dataframe['列名']添加新列，添加至最后

df['新列名'] = 常数
df['新列名'] = df['列名1'] + df['列名2'] # 数值列加减乘除都可以,一行一行计算

删除列

df.drop('列名',axis='columns',inplace=True) # inplace=True源数据上删除,axis='columns',默认按行删除,axis='index'

插入列

df.insert(loc=列下标数字, column='列名', value=该列所有的值)
# loc= 插入列的位置,按列索引序号
# column= 新插入列的名字
# value= 新插入列的值,可以是常用,也可以是计算完的结果

1.4.3 导出导入数据

导入加载数据

pd.read_xxx('文件路径') 
# 常用方法 read_csv(),read_excel()

# 加载mysql数据库数据
# 方法一：用DBAPI构建数据库链接engine
import pandas as pd
import pymysql
conn = pymysql.connect(host='localhost',
                       user='root',
                       password='',
                       database='database_name')
df = pd.read_sql("select * from table_name",con=conn)

# 方法二：用sqlalchemy构建数据库链接engine
import sqlalchemy
from sqlalchemy import create_engine
#connect_info = 'mysql+pymysql://{}:{}@{}:{}/{}?charset=utf8'.format(DB_USER, DB_PASS, DB_HOST, DB_PORT, DATABASE)
connect_info = 'mysql+pymysql://{}:{}@{}:{}/{}'.format('root',
													   '', 
													   'localhost', 
													   3306, 
													   'nowcoderdb')
engine=create_engine(connect_info)
df=pd.read_sql("select * from table_name",con=engine)

导出数据

pd.to_xxx('文件路径')
# 常用方法 to_csv(),to_excel()

# 导出数据到msyql数据库
import sqlalchemy
from sqlalchemy import create_engine
#connect_info = 'mysql+pymysql://{}:{}@{}:{}/{}?charset=utf8'.format(DB_USER, DB_PASS, DB_HOST, DB_PORT, DATABASE)
connect_info = 'mysql+pymysql://{}:{}@{}:{}/{}'.format('root',
													   '', 
													   'localhost', 
													   3306, 
													   'nowcoderdb')
engine=create_engine(connect_info)
df.to_sql('表名',engine,if_exists='')
# if_exists='',replace:删除表,重新创建保存数据(覆盖数据),append:向表中追加数据

1.5 Pandas数据分析入门

describe()
- 默认打印数据值列统计描述
- 打印非数值列统计描述

import numpy as np
df.describe(include=[np.object, pd.Categorical])
# np.object 字符串类型
# pd.Categorical dataframe特有的类别类型

info()
- 返回所有字段的条目数量、数据类型、是否缺失，及当前数据集整体的内存占用情况
常用排序方法
- nlargest()

df.nlargest(n,columns)
# 根据指定列的值由大到小排列，返回n行数据

- nsmallest()

df.nsmallest(n,columns)
# 根据指定列的值由小到大排列，返回n行数据

- sort_values()

# 对一列进行排序 ascending默认升序True,False为降序
df.sort_values(by='列名',ascending='')

# 对多列进行排序
# 多列排序时，ascending 参数传入一个列表，排序参数也是一个列表，并且一一对应
df.sort_values(by=['列名1','列名2'...],ascending='')
df.sort_values(by=['列名1','列名2'...],ascending=[True,False...])

去重

# 删除列名1,列名2...相同的数据,默认保留第一条数据
df.drop_duplicates(subset=['列名1','列名2'...])

1. Python数据分析介绍及环境搭建

1.1python数据分析简介

1.1.1 python做数据分析的优势

1.1.2 常用python数据分析开源库

1.2 python数据分析环境搭建

1.2.1 anaconda简介

1.2.3 anaconda的包管理功能

1.2.4 jupyter notebook的使用

1.3 pandas dataframe入门

1.3.1导包并加载数据

1.3.2 查看部分数据

1.3.3 分组聚合

1.4 pandas数据结构

1.4.1 Series常用操作

1.4.2 DataFrame常用操作

1.4.3 导出导入数据

1.5 Pandas数据分析入门