NLTK-004：加工原料文本-伙伴云

NLTK-004：加工原料文本

网友投稿 745 2022-05-29

从网络和硬盘访问文本

编号 2554 的文本是《罪与罚》的英文翻译，我们可以用如下方式访问它。

from urllib import request url = "http://www.gutenberg.org/files/2554/2554.txt" response = request.urlopen(url) raw = response.read().decode('utf8')

（如果是404之类的，得找个代理外网IP，下面访问的都一样… ）

所以假设获取到了内容。变量raw是这本书原始的内容，包括很多我们不感兴趣的细节，如空格、换行符和空行。请注意，文件中行尾的\r 和\n，是 Python 用来显示特殊的回车和换行字符的方式

我们要对其进行分词操作，产生一个词汇和标点符号的链表。

NLTK-004：加工原料文本

tokens = nltk.word_tokenize(raw)

我们现在采取进一步的步骤从这个链表创建一个 NLTK 文本

text = nltk.Text(tokens)

我们可以进行我们在之前看到的所有的其他语言的处理，也包括常规的链表操作，例如切片：

text[1024:1062]

处理HTML

网络上的文本大部分是 HTML 文件的形式。 HTML 的全部内容包括： meta 元标签、图像标签、map 标

签、JavaScript、表单和表格。

我们可以使用BeautifulSoup或者其他库来从HTML中提取文本，然后我们可以对原始文本进行分词：

from bs4 import BeautifulSoup raw = BeautifulSoup(html).get_text() tokens = nltk.word_tokenize(raw)

你可以选择你感兴趣的标识符，按照前面讲的那样初始化一个文本。

tokens = tokens[110:390] text = nltk.Text(tokens) text.concordance('gene')

访问单个字符

我们可以计数单个字符。通过将所有字符小写来忽略大小写的区分，并过滤掉非字母字符。

from nltk.corpus import gutenberg raw = gutenberg.raw('melville-moby_dick.txt') fdist = nltk.FreqDist(ch.lower() for ch in raw if ch.isalpha()) fdist.most_common(5) fdist.plot()

使用 Unicode 进行文字处理

Unicode支持超过一百万种字符。每个字符分配一个编号，称为编码点。在 Python 中，编码点写作\uXXXX 的形式，其中 XXXX是四位十六进制形式数。

解码：将文本翻译成Unicode；

编码：将Unicode 转化为其它编码的过程；

从文件中提取已编码文本：

假设我们有一个小的文本文件，我们知道它是如何编码的。例如：polish-lat2.txt 顾名思义是波兰语的文本片段（来源波兰语 Wikipedia；可以在 http://pl.wikipedia.org/wiki/Biblioteka_Pruska中看到）。此文件是 Latin-2 编码的，也称为 ISO-8859-2。nltk.data.find()函数为我们定位文件。

path = nltk.data.find('corpora/unicode_samples/polish-lat2.txt')

codecs模块：提供了将编码数据读入为Unicode 字符串和将Unicode 字符串以编码形式写出的函数。

codecs.open()函数：encoding 参数来指定被读取或写入的文件的编码。

f = open(path, encoding='latin2') for line in f: line = line.strip() print(line)

HTML

机器学习自然语言处理之英文NLTK（代码+原理）

745 2022-05-29

NLTK-004：加工原料文本

使用 Python 的 NLTK 包进行自然语言处理 |【生长吧！Python!】【生长吧！Python】有奖征文火热进行中：https://bbs.huaweicloud.com/blogs/278897（使用驱动器u盘之前需要格式化）

机器学习自然语言处理之英文NLTK（代码+原理）

基于NLTK搭建stanford parser环境

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

简单进销存库存管理盘点

友情链接