Pandas实例|药品发放汇总与excel表数据回填-伙伴云

网友投稿 702 2022-05-30

需求

有一个卫生院需要统计一下每个村扶贫药品发放的数据。

数据形式是在一个文件夹下，每个村的数据都存储在一个独立的excel文件中，需要将每个村的数据进行汇总，汇总形式如下：

数据处理流程

首先读取该文件夹下的其中一个文件进行测试：

from pathlib import Path import pandas as pd for name in Path(r"F:\jupyter\test\药品数据汇总\基础表").glob("[!~]*.xls*"): filename = str(name.absolute()) df = pd.read_excel(filename, sheet_name="基础表") break df.head(10)

我们需要将指定的列向下填充缺失值用于分组聚合，如果直接调用datafream的fillna方法会将整个表所有的列都填充，官方文档对该方法并没有出一个只填充指定列的参数。

所以我采用以下方法对指定的列进行填充：

group_columns = ["序号", "姓名", "年龄", "身份证号码", "家庭住址"] for c in group_columns: df[c].ffill(inplace=True) df.head()

注意：ffill方法等价于fillna(method=‘ffill’)

序号和年龄列由于一开始存在缺失值，导致转换成浮点数类型，现在已经填充后，我们可以将其转换回来：

df.序号 = df.序号.astype("int16") df.年龄 = df.年龄.astype("int16")

注意：int16表示2字节的整数，这么写是考虑到2字节的整数足够装的下年龄，可以节约一点内存，速度也会更快。

根据结果要求，计算一些辅助列：

df.eval("金额汇总=数量*单价", inplace=True) df.药品 = df.药品+df.数量.astype(str)+"*"+df.单价.astype(str) df.head()

然后分组聚合：

def join_func(s): return "/".join(s.dropna()) result = df.groupby(group_columns, as_index=False).agg({"疾病名称": join_func, "药品": join_func, "金额汇总": "sum"}) result

数据处理思路2

区别在于，前面的代码的思路是，先填充指定列，聚合时去空值再拼接。这里的思路是一次性全部填充，聚合时去除重复值再拼接。

完整代码：

import pandas as pd def join_func(s): return s.drop_duplicates().str.cat(sep='/') df = pd.read_excel('基础表/靖宇村.xlsx', sheet_name="基础表") df.ffill(inplace=True) df = df.astype({"序号": "int16", "年龄": "int16"}, copy=False) df.eval("金额汇总=数量*单价", inplace=True) df.药品 = df.药品+df.数量.astype(str)+"*"+df.单价.astype(str) group_columns = ["序号", "姓名", "年龄", "身份证号码", "家庭住址"] result = df.groupby(group_columns, as_index=False) \ .agg({"疾病名称": join_func, "药品": join_func, "金额汇总": "sum"}) result

数据处理思路3

思路：只填充第一列，其余分组列只取第一项。

import pandas as pd def join_func(s): return s.str.cat(sep='/') df = pd.read_excel('基础表/靖宇村.xlsx', sheet_name="基础表") df.序号.ffill(inplace=True) df.年龄.ffill(inplace=True) df = df.astype({"序号": "int16", "年龄": "int16"}, copy=False) df.eval("金额汇总=数量*单价", inplace=True) df.药品 = df.药品+df.数量.astype(str)+"*"+df.单价.astype(str) result = df.groupby("序号", as_index=False) \ .agg({"姓名": "first", "年龄": "first", "身份证号码": "first", "家庭住址": "first", "疾病名称": join_func, "药品": join_func, "金额汇总": "sum"}) result

将结果写入模板文件

下面我们将结果写入到下面的模板文件中：

写出代码：

from openpyxl import load_workbook book = load_workbook("合计模板.xlsx") sheet = book["合计表"] length = result.shape[0] data = result.values for i, row in enumerate(sheet[f"A4:H{length+3}"]): for j, cell in enumerate(row): cell.value = data[i, j] book.save("结果表/靖宇村.xlsx")

结果：

整体处理代码

已经全部测试完成，下面整理一下完整代码：

import os from pathlib import Path import pandas as pd from openpyxl import load_workbook import copy if not os.path.exists("结果表"): os.mkdir("结果表") def join_func(s): return "/".join(s.dropna()) group_columns = ["序号", "姓名", "年龄", "身份证号码", "家庭住址"] for name in Path("基础表").glob("[!~]*.xls*"): book = load_workbook("合计模板.xlsx") sheet = book["合计表"] filename = str(name.absolute()) df = pd.read_excel(filename, sheet_name="基础表") df.ffill(inplace=True) df = df.astype({"序号": "int16", "年龄": "int16"}, copy=False) df.eval("金额汇总=数量*单价", inplace=True) df.药品 = df.药品+df.数量.astype(str)+"*"+df.单价.astype(str) group_columns = ["序号", "姓名", "年龄", "身份证号码", "家庭住址"] result = df.groupby(group_columns, as_index=False) \ .agg({"疾病名称": join_func, "药品": join_func, "金额汇总": "sum"}) length = result.shape[0] data = result.values for i, row in enumerate(sheet[f"A4:H{length+3}"]): for j, cell in enumerate(row): cell.value = data[i, j] book.save(f"结果表/{name.name}")

执行后，已经顺利得到每个村对应的汇总结果。

云RDS for PostgreSQL实例管理提供的功能列表">华为云RDS for PostgreSQL实例管理提供的功能列表

702 2022-05-30

实例来说明countif函数的作用快速统计与高级用法（countif函数的用法及其意义）">用实例来说明countif函数的作用快速统计与高级用法（countif函数的用法及其意义）

702 2022-05-30

实例来说明countif函数的作用快速统计与高级用法（countif函数的使用例子）">用实例来说明countif函数的作用快速统计与高级用法（countif函数的使用例子）

702 2022-05-30

Pandas 实例|药品 发放汇总与excel表数据回填

云RDS for PostgreSQL实例管理提供的功能列表">华为云RDS for PostgreSQL实例管理提供的功能列表

实例来说明countif函数的作用快速统计与高级用法（countif函数的用法及其意义）">用实例来说明countif函数的作用快速统计与高级用法（countif函数的用法及其意义）

实例来说明countif函数的作用快速统计与高级用法（countif函数的使用例子）">用实例来说明countif函数的作用快速统计与高级用法（countif函数的使用例子）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

进销存库存管理盘点">简单进销存库存管理盘点

友情链接

Pandas实例|药品发放汇总与excel表数据回填

微信扫一扫：分享

云RDS for PostgreSQL实例管理提供的功能列表">华为云RDS for PostgreSQL实例管理提供的功能列表

实例来说明countif函数的作用 快速统计与高级用法（countif函数的用法及其意义）">用实例来说明countif函数的作用 快速统计与高级用法（countif函数的用法及其意义）

实例来说明countif函数的作用 快速统计与高级用法（countif函数的使用例子）">用实例来说明countif函数的作用 快速统计与高级用法（countif函数的使用例子）

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

进销存库存管理盘点">简单进销存库存管理盘点

友情链接

Pandas 实例|药品发放汇总与excel表数据回填

实例来说明countif函数的作用快速统计与高级用法（countif函数的用法及其意义）">用实例来说明countif函数的作用快速统计与高级用法（countif函数的用法及其意义）

实例来说明countif函数的作用快速统计与高级用法（countif函数的使用例子）">用实例来说明countif函数的作用快速统计与高级用法（countif函数的使用例子）