word页面问题(word居于页面中心)
542
2022-05-29
分类变量特征提取
分类数据的独热编码方法,分类变量特征提取(One-of-K or One-Hot Encoding):
通过二进制数来表示每个解释变量的特征
from sklearn.feature_extraction import DictVectorizer onhot_encoder = DictVectorizer() instances=[{'city':'New York'},{'city':'San Francisco'},{'city':'Chapel Hill'}] print (onhot_encoder.fit_transform(instances).toarray()) [[0. 1. 0.] [0. 0. 1.] [1. 0. 0.]]
1
2
3
4
5
6
7
8
9
文字特征提取-词库模型
文字模型化最常用方法,可以看成是独热编码的一种扩展,它为每个单词设值一个特征值。依据是用类似单词的文章意思也差不多。可以通过有限的编码信息实现有效的文档分类和检索。
CountVectorizer 类会将文档全部转换成小写,然后将文档词块化(tokenize).文档词块化是把句子分割成词块(token)或有意义的字母序列的过程。词块大多是单词,但是他们也可能是一些短语,如标点符号和词缀。
CountVectorizer类通过正则表达式用空格分割句子,然后抽取长度大于等于2的字母序列。
from sklearn.feature_extraction.text import CountVectorizer corpus = [ 'UNC played Duke in basketball', 'Duke lost the basketball game',
1
2
3
机器学习
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。