《TensorFlow自然语言处理》—3.2 学习单词表示的经典方法
683
2022-05-30
1.2 自然语言处理的任务
在现实世界中,NLP有很多实际的应用。一个好的NLP系统可以执行许多NLP任务。当你在Google上搜索今天的天气或使用谷歌翻译将“how are you?”翻译成法语时,你依赖NLP中的此类任务的一个子集。这里列出一些最普遍的任务,本书涵盖这些任务中的大部分:
分词:该任务将文本语料库分隔成原子单元(例如,单词)。虽然看似微不足道,但是分词是一项重要任务。例如,在日语中,词语不以空格或标点符号分隔。
词义消歧(WSD):WSD是识别单词正确含义的任务。例如,在句子“The dog barked
at the mailman”和“Tree bark is sometimes used as a medicine”中,单词bark有两种不同的含义。WSD对于诸如问答之类的任务至关重要。
命名实体识别(NER):NER尝试从给定的文本主体或文本语料库中提取实体(例如,人物、位置和组织)。例如,句子“John gave Mary two apples at school on Monday”将转换为[John]name gave [Mary]name [two]number apples at [school]organization on [Monday.]time。NER在诸如信息检索和知识表示等领域不可或缺。
词性(PoS)标记:PoS标记是将单词分配到各自对应词性的任务。它既可以是名词、动词、形容词、副词、介词等基本词、也可以是专有名词、普通名词、短语动词、动词等。
句子/概要分类:句子或概要(例如,电影评论)分类有许多应用场景,例如垃圾邮件检测、新闻文章分类(例如,政治、科技和运动)和产品评论评级(即正向或负向)。我们可以用标记数据(即人工对评论标上正面或负面的标签)训练一个分类模型来实现这项任务。?
语言生成:在语言生成中,我们使用文本语料库(包含大量文本文档)来训练学习模型(例如,神经网络),以预测后面的新文本。例如,可以通过使用现有的科幻故事训练语言生成模型,来输出一个全新的科幻故事。
问答(QA):QA技术具有很高的商业价值,这些技术是聊天机器人和VA(例如,Google Assistant和Apple Siri)的基础。许多公司已经采用聊天机器人来提供客户支持。聊天机器人可用于回答和解决客户的直接问题(例如,更改客户的每月学习计划),这些任务无须人工干预即可解决。QA涉及NLP的许多其他方面,例如信息检索和知识表示。结果,所有这些任务都使得开发QA系统变得非常困难。
机器翻译(MT):MT是将句子/短语从源语言(例如,德语)转换为目标语言(例如,英语)的任务。这是一项非常具有挑战性的任务,因为不同的语言具有不同的形态结构,这意味着它不是一对一的转换。此外,语言之间的单词到单词关系可以是一对多、一对一、多对一或多对多,这在MT文献中被称为单词对齐问题。
最后,为了开发一个可以帮助人们完成日常任务的系统(例如,VA或聊天机器人),许多这些任务需要合并执行。正如在前面的例子中看到的那样,当用户问:“你能告诉我附近有不错的意大利餐馆吗?”需要完成几个不同的NLP任务,比如语音转换到文本、语义和情感分析、问答和机器翻译。在图1.1中,我们对不同的NLP任务进行层级分类,将它们分为不同的类型。首先有两大类:分析(分析现有文本)和生成(生成新文本)任务。然后将分析分为三个不同的类别:句法(基于语言结构的任务)、语义(基于意义的任务)和实用(难以解决的公开问题):
图1.1 流行NLP任务在更广泛意义下的层级分类
了解了NLP中的各种任务后,让我们继续了解如何借助机器解决这些任务。
自然语言处理 TensorFlow
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。