概率主题模型简介 Introduction to Probabilistic Topic Models

网友投稿 509 2022-05-29

摘要:概率主题模型是一系列旨在发现隐藏在大规模文档中的主题结构的算法。本文首先回顾了这一领域的主要思想,接着调研了当前的研究水平,最后展望某些有所希望的方向。从最简单的主题模型——潜在狄立克雷分配(Latent Dirichlet Allocation,LDA)出发,讨论了其与概率建模的联系,描述了用于主题发现的两种算法。主题模型日新月异,被扩展和应用许多领域,其中不乏有趣之处。我们调研发现很多扩展都弱化了LDA的统计假设,加入元数据(meta-data)进行文档分析,使用近似的模型分析如社会网络、图像和基因这类多样化的数据类型。我们在文章的最后给出了主题模型目前还未探索但很重要的方向,包括严格检验数据模型的方法,文本和其它高维数据可视化的新技术,以及如何从传统信息工程中的应用推广到更多科学应用。

概率主题模型简介 Introduction to Probabilistic Topic Models

1 引言

如今公开的知识日益以新闻、博客、网页、科学论文、书籍、图像、声音、视频和社交网络的形式被数字化存储,巨大的信息量同时也增加了人们寻找和发

网络

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:《Word/Excel/PPT 2019完全自学教程 : 视频讲解版 》 —3.5.3 为SmartArt图形添加文本
下一篇:MD5 加密算法
相关文章