掌握excel线性回归技巧助力数据分析与决策优化
1121
2022-05-30
在网上获取的商品描述信息或者评价信息中,由于信息主体存在于非结构数据中,实体的型号存在于商品的文本数据中。如何从文本数据中非结构化数据中获取具体的商品型号是一个非常有价值的领域。
使用正则表达式获取商品型号
正则表达式是一种可以在文档中发现符合规定模式文本的方式,正则表达式的模式规则如下:
以上仅列出了正则表达式常用的部分匹配方式,足以看出正则表达式具有强大的描述效果。
从网上采集的原始文档为如下形式:海尔(Haier)452升风冷无霜对开门冰箱 90度开门 66.5cm纤薄机身 低温净味 双温双控BCD-452WDPF
可以看出需要提取的信息为:BCD-452WDPF
分析这个任务可以看出原始文本中 存四种字符:中文、英文、数字、特殊字符。在正则表达式中:(1)中文可以使用.来表示\w进行匹配(2)英文字母组合可以使用枚举26个英文字母同时指定出现次数的方式[a-zA-z],如果出现至少一次则可以指定出现次数为+进行匹配(3)数字可以使用枚举所有数字[0-9],并指定出现次数的方式进行匹配,如果出现至少一次则可以指定出现次数为+(4)特殊字符,可以通过枚举方式列出,如[,*-+]等,如果出现0次或者多次则可以指定出现次数为。
需要提取的内容为字母、数字和横线(连字符)的组合,一般情况下型号一般都有横线(连字符),在横线的前后内容中可能存在(1)字母或者数字组合(2)纯字母(3)纯数字这三种情况。因此首先我们先将横线(连字符)放在中间“-”,指定前后的模式格式一致表现为:大写字母、小写字母或者数字至少有一个出现一次的情况“[a-zA-Z0-9]+”。因此整体模式可以写作:“[a-zA-Z0-9]+-[a-zA-Z0-9]+”
具体应用场景
######代码内容 上述代码描述了如何读取数据并利用正则表达式获取产品型号,其结果如下:凡是包含产品型号的描述,其中的产品型号部分被提取了出来,而没有包含产品型号的语句得出的结果为空。######代码运行结果 上述结果证明:正则表达式可以在描述语句不多,且型号信息规则的情况下获取到商品的型号信息。
本文转载自异步社区。
原文链接
https://www.epubit.com/articleDetails?id=N474f41db-bcc5-431e-9569-986f4c978e87
Python 正则表达式
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。