多表格合并一起
819
2022-05-29
分詞函數
def split_word(document): """ 分詞,去除停用詞 """ stop_words = {":", "的", ",", "”"} text = [] for word in jieba.cut(document): if word not in stop_words: text.append(word) return text
1
2
3
4
5
6
7
8
9
10
11
通過交集并集計算文檔相似度
from itertools import combinations documents = [ "窩趣公寓完成近2億元B輪融資主打品質和輕松社交的居住環境", "IBM的區塊鏈副總裁JesseLund:比特幣將達到100萬美元", "窩趣公寓完成近2億元B輪融資" ] # 計算兩兩組合的相似度 for doc1, doc2 in combinations(documents, 2): words1 = split_word(doc1) words2 = split_word(doc2) words1_set = set(words1) words2_set = set(words2) similar12 = len(words1_set & words2_set) / len(words1_set | words2_set) print("{:.2f}".format(similar12), doc1, doc2)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
計算結果
0.00 窩趣公寓完成近2億元B輪融資主打品質和輕松社交的居住環境 IBM的區塊鏈副總裁JesseLund:比特幣將達到100萬美元 0.53 窩趣公寓完成近2億元B輪融資主打品質和輕松社交的居住環境 窩趣公寓完成近2億元B輪融資 0.00 IBM的區塊鏈副總裁JesseLund:比特幣將達到100萬美元 窩趣公寓完成近2億元B輪融資
1
2
3
Python 區塊鏈
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。