亚洲色无码专区一区,亚洲成人激情在线,女bbbbxxxx另类亚洲

基于Pyspark的TF-IDF英文關鍵詞確定

網友投稿 993 2025-03-31

文章目錄

一、TF-IDF回顧

二、PySpark注意事項

三、具體代碼

四、結果分析

一、TF-IDF回顧

TF-IDF（Term Frequency/Inverse Document Frequency，詞頻-逆文檔頻率）算法，可以找出文檔中的關鍵詞，

顧名思義，TF-IDF 分數由兩部分組成：

第一部分是TF詞語頻率（Term Frequency），

第二部分是IDF逆文檔頻率（Inverse Document Frequency）。

其中計算語料庫中文檔總數除以含有該詞語的文檔數量，然后再取對數就是逆文檔頻率。

TF(t)= 該詞語在當前文檔出現的次數 / 當前文檔中詞語的總數

IDF(t)= log_e（文檔總數 / 出現該詞語的文檔總數）即：

I D F ( x ) = log ? N N ( x ) I D F(x)=\log \frac{N}{N(x)} IDF(x)=logN(x)N

IDF反應了一個詞在所有文本中出現的頻率，如果一個詞在很多的文本中出現，那么它的IDF值應該低，比如I come to China to travel中的“to”。而反過來如果一個詞在比較少的文本中出現，那么它的IDF值應該高。一個極端的情況，如果一個詞在所有的文本中都出現，那么它的IDF值應該為0。

二、PySpark注意事項

如果之前跑過數據，需要刪除緩存中的rdd數據再跑：normalized_document_tfidf_rdd.unpersist()。

三、具體代碼

from pyspark import SparkConf, SparkContext import math #以下為計算過程中需要用到的幾個函數 # 該函數主要是統計一個文檔中包含哪些單詞 def word_contains(words_list): words_set=set(words_list)#將列表轉為set,去除重復的單詞 return list(words_set)#再將set轉為列表返回 # 計算每個單詞的逆文檔頻率idf def computeIDF(word_df_tuple,num_document): word=word_df_tuple[0] df=word_df_tuple[1] #根據逆文檔頻率計算公式計算idf值 word_idf = math.log(float(num_document+1) / float(df+1), 2) return (word, word_idf)#以一個元組tuple的形式返回一個單詞的dif值 # 計算每個文檔中單詞的tf值，并將文檔轉成向量 def computeTF(words_list, all_words_list): words_num=len(words_list)#獲取文檔中出現的單詞的個數 words_dic={} for word in words_list:#統計文檔中每個單詞出現的次數 if word in words_dic.keys(): words_dic[word]+=1 else: words_dic[word]=1 tf_vector=[] for word in all_words_list:#將文檔轉為一個tf值向量并返回 if word in words_dic.keys(): tf=float(words_dic[word])/words_num tf_vector.append(tf) else: tf_vector.append(0) return tf_vector # 計算每個文檔向量中每個單詞的tfidf值 def computeTFIDF(tf_vector, words_idf_dic,all_words_list): i=0 tfidf_vector=[] for word in all_words_list:#將每個單詞的tf值和idf值相乘 tfidf=tf_vector[i]*words_idf_dic[word] tfidf_vector.append(tfidf) i+=1 return tfidf_vector # 對每個tfidf向量進行歸一化 def nomoralize(tfidf_vector): new_vector=[] sum=0 for item in tfidf_vector: sum+=math.pow(item,2) sqrt_sum=math.sqrt(sum) for item in tfidf_vector: new_item=item/sqrt_sum new_vector.append(new_item) return new_vector #主程序 if __name__ == "__main__": #conf = SparkConf().setAppName("tfidf") #sc = SparkContext(conf=conf) # 刪除緩存中的rdd數據 # normalized_document_tfidf_rdd.unpersist() #示例文檔數據，每個文檔是一個單詞列表 documents_list=[["hello","world","china","good","spark","good"], ["hello","china","china","great","love","china"], ["love","spark","spark","good","hello","spark"]] #documents_list=[["hello","friends","today","is","my","holiday"], # ["hello","china","china","great","love","china"], # ["love","spark","spark","good","hello","spark"]] #創建RDD并進行緩存 tokenized_document_rdd=sc.parallelize(documents_list).cache() print ("*************************** compute idf************************************") #這個階段的主要操作是計算單詞的idf值 #獲取文檔的個數用來計算逆文檔頻率 num_document=tokenized_document_rdd.count() #計算每個單詞的文檔支持度 #實現思路是，針對每個文本文檔，通過將單詞列表轉成set來獲取每個文檔中出現的單詞，然后 #通過flatMap操作，將每個文檔出現的單詞合并成一個新的集合。在新的集合中，一個單詞出現 #的次數即是其文檔支持度。因此，我們可以在flatMap操作之后應用map和reducebykey操作來統 #計每個單詞的文檔支持度。 words_df_rdd=tokenized_document_rdd.flatMap(lambda words_list:word_contains(words_list)) \ .map(lambda word:(word,1)) \ .reduceByKey(lambda a,b:a+b) #根據單詞的文檔頻率和文檔的總數計算每個單詞的idf # computeIDF函數實現的是具體計算idf的值 words_idf_rdd=words_df_rdd.map(lambda word_df_tuple: computeIDF(word_df_tuple, num_document)) print ("*********************************** compute tf *******************************") #計算每個文本中每個單詞出現的頻次，進而計算tf值 #返回包含所有單詞的列表 #flatMap是將所有文檔中的單詞合并成一個大的列表，distinct是將列表中重復的單詞去除 all_words_list= tokenized_document_rdd.flatMap(lambda words_list:words_list) \ .distinct() \ .collect() #考慮到單詞可能很多，我們將包含所有單詞的all_words_list變量做出廣播變量，使得一個executor #上的多個Task可以共享該變量 all_words_broadcast=sc.broadcast(all_words_list) #計算單詞的tf,得到文檔的tf向量 document_tf_rdd= tokenized_document_rdd.map(lambda words_list: computeTF(words_list, all_words_broadcast.value)) print ("******************************* compute tfidf*********************************") #提取從rdd中提取每個單詞的idf值，并將提取的列表變量轉成字典變量，進而轉成廣播變量，以 #供發送給各個executor計算每個文檔中每個單詞的tfidf值 words_idf_list= words_idf_rdd.collect() words_idf_dic={} for item in words_idf_list:#將單詞的idf值列表轉為字典易于獲取每個單詞的idf值 words_idf_dic[item[0]]=item[1] words_idf_broadcast=sc.broadcast(words_idf_dic) #計算每個文本中每個單詞的tfidf值 document_tfidf_rdd= document_tf_rdd.map(lambda words_tf_list:computeTFIDF(words_tf_list, words_idf_broadcast.value,all_words_broadcast.value)) #將每個文本對應的列表向量進行歸一化 normalized_document_tfidf_rdd= document_tfidf_rdd.map(lambda tfidf_vector: nomoralize(tfidf_vector)) print ("************************** print tfidf vectors*********************************") #打印輸出每個tfidf向量 tfidf_vectors= normalized_document_tfidf_rdd.collect() num = 0 for item in tfidf_vectors: print (item) num = num + 1 print("第%d條文本：" % num) print("當前文本的tfidf向量: \n", item) print(documents_list[num - 1]) print("最大值是：", p.max(item), "所在的下標是:", item.index(p.max(item))) # tf-idf值最大的單詞 print("tfidf值最大的單詞", documents_list[num - 1][ item.index(p.max(item)) ], "\n")

100

101

102

103

104

105

106

107

108

109

110

111

基于Pyspark的TF-IDF英文關鍵詞確定

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

四、結果分析

每條句子（文檔）的tf-idf最大的單詞也打印出來了：

*************************** compute idf************************************ *********************************** compute tf ******************************* ******************************* compute tfidf********************************* ************************** print tfidf vectors********************************* [0.5820915838854853, 0.0, 0.29104579194274266, 0.0, 0.29104579194274266, 0.7012517964002163, 0.0] 第1條文本：當前文本的tfidf向量: [0.5820915838854853, 0.0, 0.29104579194274266, 0.0, 0.29104579194274266, 0.7012517964002163, 0.0] ['hello', 'china', 'china', 'great', 'love', 'china'] 最大值是： 0.7012517964002163 所在的下標是: 5 tfidf值最大的單詞 china [0.0, 0.0, 0.0, 0.6060537877905645, 0.7546051455392007, 0.0, 0.2515350485130669] 第2條文本：當前文本的tfidf向量: [0.0, 0.0, 0.0, 0.6060537877905645, 0.7546051455392007, 0.0, 0.2515350485130669] ['hello', 'china', 'china', 'great', 'love', 'china'] 最大值是： 0.7546051455392007 所在的下標是: 4 tfidf值最大的單詞 love [0.30151134457776363, 0.0, 0.9045340337332908, 0.0, 0.0, 0.0, 0.30151134457776363] 第3條文本：當前文本的tfidf向量: [0.30151134457776363, 0.0, 0.9045340337332908, 0.0, 0.0, 0.0, 0.30151134457776363] ['hello', 'china', 'china', 'great', 'love', 'china'] 最大值是： 0.9045340337332908 所在的下標是: 2 tfidf值最大的單詞 china

基于 北斗和4G Cat1模組的智慧物流開發]踩坑1">[基于 北斗和4G Cat1模組的智慧物流開發]踩坑1

993 2025-03-31

Free Style】基于華為CCE微服務改造的技術實踐（二）">【Free Style】基于華為CCE微服務改造的技術實踐（二）

993 2025-03-31

基于Django+Bootstrap框架，設計微型小說網站">基于Django+Bootstrap框架，設計微型小說網站

993 2025-03-31

基于Pyspark的TF-IDF英文關鍵詞確定

基于 北斗和4G Cat1模組的智慧物流開發]踩坑1">[基于 北斗和4G Cat1模組的智慧物流開發]踩坑1

Free Style】基于華為CCE微服務改造的技術實踐（二）">【Free Style】基于華為CCE微服務改造的技術實踐（二）

基于Django+Bootstrap框架，設計微型小說網站">基于Django+Bootstrap框架，設計微型小說網站

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接