Pandas基础|生成对应编码的N种方法-伙伴云

Pandas基础|生成对应编码的N种方法

网友投稿 810 2025-04-01

需求

已知列表

[‘50万以上’, ‘10万以下’, ‘10万以下’, ‘50万以上’, ‘10万以下’, ‘10万以下’, ‘30-50万’, ‘10-30万’]

按照以下关系生成编码：

‘10万以下’ 1

‘10-30万’ 2

Pandas基础|生成对应编码的N种方法

‘30-50万’ 3

‘50万以上’ 4

对于这个基础问题，使用pandas至少有10种以上的方法去实现它，你能使用多少个API去实现，往往能体现你对Pandas方法的熟练程度，以后任何类似或更复杂的需求都不怕。下面我将演示较为常规的几种供大家复习pandas的语法。

注意：本文已经预设你掌握了pandas的全部语法，不会对基础详解。若发现对对某个API不熟悉，可查询官方文档复习。

数据构造

import pandas as pd data = ['50万以上', '10万以下', '10万以下', '50万以上', '10万以下', '10万以下', '30-50万', '10-30万'] cats = ['10万以下', '10-30万', '30-50万', '50万以上'] df = pd.DataFrame({"data": data}) df

解决方法

方法1：使用pandas自带的分类数据内部编码

df.data = df.data.astype('category').cat.set_categories(cats) df["code1"] = df.data.cat.codes+1

为了避免对后续代码的影响，我们将原数据还原回字符串类型：

df.data = df.data.astype('str')

方法2：使用python字典查询匹配

先构造一个查询字典：

query_table = dict(zip(cats, range(1, len(cats)+1))) query_table

{'10万以下': 1, '10-30万': 2, '30-50万': 3, '50万以上': 4}

然后开始循环查询：

df["code2"] = [query_table[x] for x in df.data]

方法3-4：使用Series的apply方法

df["code3"] = df.data.apply(lambda x: query_table[x])

字典内部方法可以传入切片：

df["code4"] = df.data.apply(query_table.__getitem__)

方法5：使用Series的map方法传入函数

map方法也可以传入函数的：

df["code5"] = df.data.map(query_table.__getitem__)

方法6：使用Series的map方法传入字典

map方法除了可以传入函数外，还支持直接传入替换字典：

df["code6"] = df.data.map(query_table)

方法7：使用Series的replace方法

replace方法也支持直接传入替换字典：

df["code7"] = df.data.replace(query_table)

replace方法还支持传入正则表达式，指定参数regex=True即可，但是被替换值不能像re模块一样可以传入函数并被调用。

方法8：使用Series的str处理器的replace方法传入正则替换方法

这个方法非常智障，正则替换函数只能返回字符串，最终还需要还原成数字类型。

展示这个方法只能为了让大家清楚Series的replace方法与str处理器的replace方法的区别：

df["code8"] = df.data.str.replace('.+', lambda m: str(query_table[m.group(0)]), regex=True).astype('int')

方法9：使用Index的get_indexer方法获取角标位置

query_index = pd.Index(cats) df["code9"] = query_index.get_indexer(df.data)+1

方法10：使用Series进行批量查询

query_series = pd.Series(index=cats, data=range(1, len(cats)+1)) df["code10"] = query_series[df.data].values

才哥又补充了类似下面的两种的写法：

方法11：使用merge表连接

query_frame = query_series.to_frame() df['code11'] = df[["data"]].merge(query_frame, how='left', left_on='data', right_index=True)[0]

方法12：使用join表连接

df['code12'] = df[["data"]].join(query_frame, on='data')[0]

完整代码测试：

df.data = df.data.astype('category').cat.set_categories(cats) df["code1"] = df.data.cat.codes+1 df.data = df.data.astype('str') query_table = dict(zip(cats, range(1, len(cats)+1))) df["code2"] = [query_table[x] for x in df.data] df["code3"] = df.data.apply(lambda x: query_table[x]) df["code4"] = df.data.apply(query_table.__getitem__) df["code5"] = df.data.map(query_table.__getitem__) df["code6"] = df.data.map(query_table) df["code7"] = df.data.replace(query_table) df["code8"] = df.data.str.replace('.+', lambda m: str(query_table[m.group(0)]), regex=True).astype('int') query_index = pd.Index(cats) df["code9"] = query_index.get_indexer(df.data)+1 query_series = pd.Series(index=cats, data=range(1, len(cats)+1)) df["code10"] = query_series[df.data].values query_frame = query_series.to_frame() df['code11'] = df[["data"]].merge(query_frame, how='left', left_on='data', right_index=True)[0] df['code12'] = df[["data"]].join(query_frame, on='data')[0] df

可以看到上述所有方法均顺利生成了对应的编码。

本文展示的方法，仅仅只是抛砖引玉，相信读者们还可能能想出更多的处理办法，欢迎留言评论进行交流。

Python

Swift之深入解析Key Paths的功能与应用

810 2025-04-01

Pandas基础|生成对应编码的N种方法

Swift之深入解析Key Paths的功能与应用

web前端开发之vue.js：初识vue

Python函数、文件操作总结

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

定制家居数字化管理模式：提升品质、智能化和个性化的未

友情链接

Pandas基础|生成对应编码的N种方法

微信扫一扫：分享

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

友情链接