数据分组统计分析 分组数据计算 #groupby df.groupby(by=None,axis=0,as_index=true,sort=True) # as_index:True为按分组列为索引,False为新建0开始索引 按照单列分组计算 df1 = df.groupby('列').count() 按照多列分组计算 df2 = df.groupby(['列1','列2']).sum() 按照指定列分组计算 df3 = df.groupby('列')['指定数据列'].sum() 分组数据迭代 #for遍历分组 按照单列分组数据迭代 df4 = df.groupby('节点') for i,group in df4: print(i) print(group) print('------------------------') 按照多列分组数据迭代 df5 = df.groupby(['节点','省份']) for (i,k),group in df5: print(i,k) print(group) print('-----------
数据计算 df['总收入'] = df.loc[:,['banner收入','视频收入','插屏收入','原生模板收入']].sum(axis=1) df['总用户'] = df.loc[:,['新用户人数','老用户人数']].sum(axis=1) df= df.append(df.sum(axis=0),ignore_index=True) df = df.append(df.max(axis=0),ignore_index=True) df = df.append(df.mean(axis=0),ignore_index=True) df= df.append(df.min(axis=0),ignore_index=True) df = df.append(df.median(axis=0),ignore_index=True) df= df.append(df.mode(axis=0),ignore_index=True) df = df.append(df.var(axis=0),ignore_index=True) df = df.append(df.std(axis=
数据清洗 查询缺失值 df.info() # 查询缺失信息 df.isnull() # 按数据表格查询缺失值,缺失为True df.notnull() # 安数据表格查询缺失值,缺失为False 缺失值的处理 删除全部缺失值 df.dropna() # 删除全部包含缺失值的行 删除特定条件的缺失值 df[df['列'].notnull()] # 按列提取不包含缺失值的行 缺失值的填充 df['列'] = df['列'].fillna(0) 重复值的处理 df.duplicated() # 判断重复值,可指定列判断 df.drop_duplicates() # 删除全部重复值,可指定列删除 索引设置 # 重新设置索引 df = df.reindex(range(1,15),fill_value=0) # 向前填充ffill,向后填充bfill df = df.reindex(range(0,15),method='ffill') # print(df) # 重新设置行索引 df = df.set_index(['神码结算']) print(df) 数据排
一、导入数据 导入excel数据 pd.read_excel 导入html - table表格数据 pd.read_html() 二、抽取数据 DataFrame对象的loc和iloc属性 行提取 列提取 指定条件提取数据 三、数据的增、改、删 数据的增加 增加列 增加行 修改数据 修改列标题 修改行标题 修改整行数据 修改整列数据 修改单个值 删除数据 删除列数据 删除行数据 删除带条件的数据
一、Series 一维数组,可以存储证书、浮点数、字符串、python对象等多种数据类型的数据 创建series对象:pd.Series(data,index=index) import pandas as pd df = pd.read_excel('全国智算中心.xlsx') print(df) 1. Series索引 2. 自定义索引 data = ['90','80','22'] index = ['张三','李四','王二'] df = pd.Series(data=data,index=index) 3. 切片 4. 提取 二、DataFrame 二维表,由行和列组成,支持多种数据类型。 创建dataframe对象:pd.DataFrame(data,index,columns,dtype) 1. 列表方式创建DataFrame对象 2. 字典方式创建DataFrame对象 字典value是列表的话,列表长度要一致3. DataFrame对象属性 4. DataFrame重要函数
Vendor
不爱看书、不爱看电影、每说三句话就撒两次谎