概率主題模型簡介 Introduction to Probabilistic Topic Models
摘要:概率主題模型是一系列旨在發現隱藏在大規模文檔中的主題結構的算法。本文首先回顧了這一領域的主要思想,接著調研了當前的研究水平,最后展望某些有所希望的方向。從最簡單的主題模型——潛在狄立克雷分配(Latent Dirichlet Allocation,LDA)出發,討論了其與概率建模的聯系,描述了用于主題發現的兩種算法。主題模型日新月異,被擴展和應用許多領域,其中不乏有趣之處。我們調研發現很多擴展都弱化了LDA的統計假設,加入元數據(meta-data)進行文檔分析,使用近似的模型分析如社會網絡、圖像和基因這類多樣化的數據類型。我們在文章的最后給出了主題模型目前還未探索但很重要的方向,包括嚴格檢驗數據模型的方法,文本和其它高維數據可視化的新技術,以及如何從傳統信息工程中的應用推廣到更多科學應用。
1 引言
如今公開的知識日益以新聞、博客、網頁、科學論文、書籍、圖像、聲音、視頻和社交網絡的形式被數字化存儲,巨大的信息量同時也增加了人們尋找和發
網絡
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。