深度学习的相关含义是什么
740
2022-05-30
开篇之前先回顾两个基本模型的概念,end2end,sqe2sqe和注意力机制
这篇笔记基于《double embedding and cnn-based sequence labeling fro aspect extraction》 Hu Xu, Bing liu, ACL18。from chicago University and Tinghua University
在细粒度情感分析中获取情感分析的对象是十分重要的一个任务。这篇文章介绍了如何通过两个预处理的embedding层结合CNN模型来解决获取情感分析方面对象的方法,这种方法虽然简单,但是在没有附加任何新的信息的情况下却获得了很好的实验效果。 #####目的介绍 受施方面特征提取是情感分析模型的一个重要任务,主要目的是从意见文本中提取意见的施加对象,例如“他的速度快的难以置信。”在这段文本中速度就是文本意见施加的对象。受施方面特征提取一般使用有监督学习,相关研究包括词法分析,深度神经网络分析等等。尽管这些模型取得了较好的效果,但是对于一个模型还应考虑这两个问题:1、如何在人工干预较少的情况下获取一个可接受的自动特征表示结果;2、根据occam剃刀原则,(从综合效果上考虑)简练的模型往往优于复杂的。本文基于上述观点提出了这样一个简单的模型。 ######特征提取 为实现第一个目的本文提出了一种双嵌入机制来进行方面特征提取。嵌入层是模型的第一个层,所有的信息都是在这一层进行编码。嵌入层的编码质量直接决定了下面解码层的解码质量。现有模型一般使用通用的嵌入方式如glove或者其他根据文本与训练好的模型。但是在情感分析的受施方面提取是一个非常复杂的过程,对于复杂的领域情感分析受施对象的提取过程中需要使用细分领域的词嵌入模型。例如对于笔记本电脑而言“速度”指的是每秒钟指令的执行次数而对于交通工具则是每小时行驶的公里数。所以尽管领域内的词嵌入训练模型规模不大但是却非常重要,本文将充分结合使用通用词嵌入和领域词嵌入数据,使得嵌入层的编码能获取增多的信息。 ######简化模型 为实现本文提出的第二个目的(简单高效)本文使用CNN神经网络,LSTM具有先天的顺序依赖特性,前向传播和后向传播过程都要求数据顺序进入系统,使得系统的运行效率不高;但是CNN中的卷积和池化操作通常是为了进行抽象顺序输入而进行的操作,从而使得输出和输入不能建立直接的对应关联关系。 本文实现了双嵌入CNN(DE-CNN),这是首次第一次将双嵌入和纯基于CNN的序列数据处理模型结合起来。 #####相关工作 12年开始就有人进行情感分析篇章、句子和受施方面等不同层次作分析,然而对受施方面的分析从04年就已经开始了,受施方面的分析方法既有使用的有监督学习的也有无监督学习的。其中无监督学习的方法主要有频繁模式挖掘、语法规则和文法规则以及主题模型等word alignment和label propagation等。 监督学习的方法通常都是指有crf(条件随机场模型)、最近深度学习也已经应用在了有监督受施方面对象提取的过程中,比如LSTM模型、和人工特征结合的注意力机制等都取得了很好的效果。 已有的词嵌入包含跨领域和领域特定的词嵌入方法,然而我们需要的是受施方面特征提取完全匹配的特定领域。CNN最近也被用在命名个体识别方面。CNN分类器同样也被用在情感分析中,我们采用的CNN序列特征提取,保留了CNN的简单和可并行化的特点。 ####模型介绍 提出的模型包含两个嵌入层和4个卷积层,一个全连接层共享所有词汇的位置,一个softmax层产生标签结果。标签结果未y={B,I,O}
这两个嵌入层是不可训练的,其主要原因是不能可能一边输入而对同一个词语编码的形式却发生了变化。 论文中使用的两个嵌入层叠加的方式为按位叠加的方式 $$x^{(1)} = x^g \oplus x^d$$ 然后将结果输入卷积神经网络中,卷积神经网络则使用多个一维的过滤层,每个层都是尺寸为r的过滤器使用的卷积核为k = 2c +1其卷积操作核ReLU的激活器作用为: $$x_{i,r} ^{(l+1)} = max(0,({\sum} { w *x+ b_r ^{(l)}})) \qquad (编辑器真难用tex支持不全,帮助又相当有限)$$
使得卷积层可以对上下文为C的单词进行处理,卷积核的大小为偶数,同时对于第一个卷积层使用两种大小的卷积核,而对于其他层(2,3,4层)使用相同大小的卷积核。最后使用给一个全连接层和一个softmax层进行分类。本文并未使用最大化池化,因为对于序列标签而言需要每个序列的单词内容而不是抽象出来的内容。 ####实验 #####数据集的选择 根据最近一些论文的启示,使用了SemEval challenge的两个情感分析受施方面的基准数据库,第一个是笔记本电脑领域的数据库来源于SemVal-2014年的子任务;第二个是来自于餐馆领域的数据库来源于SemVal-2016的子任务。这两个数据库都包含了包含已标明受施对象评论语句的句子和篇章。直接使用了nltk对文章内容进行分词。 对于通用的嵌入层,我们使用840B.300d.embeddings这个训练结果(网上都有,glove的或者word2vec的都有)对于领域数据我们收集了笔记本电脑和餐馆的评论语料库,和fastText进行训练。laptop评论语料库来自于Amazon Review DataSet,餐馆语料库来自于Yelp Review DataSet Chanllenge,中关于餐馆的部分。训练参数为100维的30轮迭代,保持了fastText中的超参数。同时使用fastText对词典外的单词使用subWord N-gram词嵌入
。 #####基准方法 实验分为三组:使用标准评价方法对数据库进行评价。前两组的结果是来自于Li&Lam的论文,第一组则是使用单任务方法进行实验。 ######第一组 CRF 条件随机场 IHS_RD 和 NLANGP原有挑战赛最好的系统 WDEmb 使用词嵌入增强的CRF 线性上下文和独立输入路径的词嵌入输入。 LSTM 简单的双向LSTM BiLSTM BiLSTM-CNN-CRF NER社区的效果最好的模型 ######第二组是一个多任务学习使用gold-standard *** term/setiment 语法
CRNCRF Wang等人16年提出的结合递归神经网络和CRF进行方面及意见项协同抽取的模型,处理意见注释,他还适用于人工特征提取。 CMLA Wang等人17年提出的多层注意力连接神经网络适用于方面及意见项协同抽取的模型。 MIN Li & Lam等人提出的多任务学习框架,共包含三个LSMT,前两个用于方面和意见提取,第三个用于决定情感倾向。 ######第三组是DE—CNN的变种 glove-CNN Domain-CNN maxPoll-DE-CNN DE-OOD-CNN DE-goole-CNNN DE-CNN_CRF 这几个模型看名字就知道用的什么结构,不赘述。 #####超参数 卷积核大小k = 3或5 第一层CNN 128个卷积单元 c为上下文窗口中的第c个词,c=1是使用k = 3 c = 2时使用k=5 其他层每个层使用256个卷积单元使用k=5的卷积核。 dropout = 0.55 adma的学习速率为0.0001 ####结果分析 当然文主提出的模型最棒了。 ####结论 该文章提出的基于CNN的受施面提取模型基于双嵌入层机制没有使用任何的监督方式,实验显示效果很好。
本文转载自异步社区
神经网络
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。