【2020华为云AI实战营】第七章NLP作业,十步法教你做《魔戒》、《射雕英雄传》和《贝多芬传》词云图

网友投稿 570 2022-05-29

1、背景

根据百度百科,词云这个概念来自于美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon),戈登曾担任迈阿密先驱报(Miami Herald)新媒体版的主任。他认为“词云”就是对网络文本中出现频率较高的“关键词”的视觉上的突出。

而词云图是将网络文本数据中出现频率较高的关键词以可视化的形式展现出来,让人能很直观地了解到文本数据中的关键词汇,从而过滤掉大量的文本信息,浏览网页者不用读文本,只要看过词云领略文本的主旨。

2、词云图工具简介

由于词云图可广泛用于诸如:PPT制作、海报制作、用户画像、剧本任务分析等等,诸多场景。有较多的相关词云制作工具,例如:Wordle、WordItOut、ToCloud等。但我们也可以用Python这个利器,在华为云的ModelArts上制作更有个性的词云图。

3、采用ModelArts制作词云图的过程

本文以《魔戒》、《射雕英雄传》、《贝多芬传》为例,通过十个步骤带领大家制作这三部小说的词云图。

当然在准备制作词云前,先要准备好文本文件,以及词云图的背景图片。下面我们开始:

第一步:准备小说文本,注意要存为UTF-8编码模式。

第二步:准备相应的词云背景图,注意要将图片设置为背景为白色图片(如第三张,钢琴的图片)。

第三步:进入华为云ModelArts界面,并进入开发环境下Notebook后,点“创建”

第四步:创建Notebook,注意选择工作环境是python3、类型为GPU、规格是【限时免费】体验规格、储存配置是云硬盘(EVS),配置完成后,点“下一步”,再点“提交”。我们就创建好了一个Notebook。

第五步:启动Notebook

第六步:打开JupyterLab,选择Notebook下,TensorFlow-1.13.1环境

第七步:加载gen_wordcloud.py文件,该文件下载地址是:

https://modelarts-labs-bj4.obs.cn-north-4.myhuaweicloud.com/notebook/DL_nlp_introduction/gen_wordcloud.py

该文件加载了如下库:

import os

【2020华为云AI实战营】第七章NLP作业,十步法教你做《魔戒》、《射雕英雄传》和《贝多芬传》词云图

import jieba

import chardet

import requests

import subprocess

import numpy as np

from PIL import Image

from wordcloud import WordCloud, ImageColorGenerator

第八步:继续加载已经做好的文本文件——魔戒.txt、射雕英雄传.txt、贝多芬传.txt,以及做好的词云背景图片文件

根据需要调整读取的文件和词云图背景文件:

txt_path = './贝多芬传.txt'

mask_img_path ='./bei3.png'

第九步:根据不同文本文件、图片文件,设定不同路径,运行程序后,分别得到魔戒、射雕英雄传、贝多芬传的不同词云图片

第十步:感觉词云图边缘不是很清楚,给词云图增加边框,增补调整参数如下:

contour_width=1, contour_color='steelblue'

运行程序后,得到如下词云图:

4、总结

经过以上十步,我们利用华为云ModelArts的JupyterLab,实现了几本小说的简单词云图的展示,并根据不同需要调整参数,构建独有的词云图。有兴趣的小伙伴,可以来试试调整其他的参数,来可以构建自己喜欢的词云图。

AI 自然语言处理 云学院

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Oracle优化01-引起数据库性能问题的因素
下一篇:学习笔记 华为云云原生王者之路集训营-黄金阶段(中)
相关文章