主題模型LDA的實現(xiàn)
數(shù)據(jù)集位于lda安裝目錄的tests文件夾中,包含三個文件:reuters.ldac, reuters.titles, reuters.tokens。
reuters.titles包含了395個文檔的標(biāo)題
reuters.tokens包含了這395個文檔中出現(xiàn)的所有單詞,總共是4258個
reuters.ldac有395行,第i行代表第i個文檔中各個詞匯出現(xiàn)的頻率。以第0行為例,第0行代表的是第0個文檔,從reuters.titles中可查到該文檔的標(biāo)題為“UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20”。
# !/usr/bin/python # -*- coding:utf-8 -*- import numpy as np import matplotlib.pyplot as plt import matplotlib as mpl import lda import lda.datasets from pprint import pprint if __name__ == "__main__": # document-term matrix X = lda.datasets.load_reuters() print(("type(X): {}".format(type(X)))) print(("shape: {}\n".format(X.shape))) print((X[:10, :10])) # the vocab vocab = lda.datasets.load_reuters_vocab() print(("type(vocab): {}".format(type(vocab)))) print(("len(vocab): {}\n".format(len(vocab)))) print((voca
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。