<ul id="uge2q"></ul>

<ul id="uge2q"></ul>

Python 編程：通過 交集并集計算文檔相似度

網友投稿 819 2022-05-29

分詞函數

def split_word(document): """ 分詞，去除停用詞 """ stop_words = {":", "的", "，", "”"} text = [] for word in jieba.cut(document): if word not in stop_words: text.append(word) return text

通過交集并集計算文檔相似度

from itertools import combinations documents = [ "窩趣公寓完成近2億元B輪融資主打品質和輕松社交的居住環境", "IBM的區塊鏈副總裁JesseLund:比特幣將達到100萬美元", "窩趣公寓完成近2億元B輪融資" ] # 計算兩兩組合的相似度 for doc1, doc2 in combinations(documents, 2): words1 = split_word(doc1) words2 = split_word(doc2) words1_set = set(words1) words2_set = set(words2) similar12 = len(words1_set & words2_set) / len(words1_set | words2_set) print("{:.2f}".format(similar12), doc1, doc2)

Python編程：通過交集并集計算文檔相似度

計算結果

0.00 窩趣公寓完成近2億元B輪融資主打品質和輕松社交的居住環境 IBM的區塊鏈副總裁JesseLund:比特幣將達到100萬美元 0.53 窩趣公寓完成近2億元B輪融資主打品質和輕松社交的居住環境窩趣公寓完成近2億元B輪融資 0.00 IBM的區塊鏈副總裁JesseLund:比特幣將達到100萬美元窩趣公寓完成近2億元B輪融資

Python 區塊鏈

標簽：Python 編程通過交集

多表格合并一起

819 2022-05-29

辦公 自動化(三) | 借助服務器定時爬數據發郵件">python辦公 自動化(三) | 借助服務器定時爬數據發郵件

819 2022-05-29

Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝">[Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝

819 2022-05-29

<fieldset id="c0oyk"></fieldset>

Python 編程：通過 交集并集計算文檔相似度

多表格合并一起

辦公 自動化(三) | 借助服務器定時爬數據發郵件">python辦公 自動化(三) | 借助服務器定時爬數據發郵件

Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝">[Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

Excel項目進度表模板，簡化您的項目進度管理">Excel項目進度表模板，簡化您的項目進度管理

定制家居數字化管理模式：提升品質、智能化和個性化的未

友情鏈接

Python編程：通過交集并集計算文檔相似度

辦公自動化(三) | 借助服務器定時爬數據發郵件">python辦公自動化(三) | 借助服務器定時爬數據發郵件

Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝">[Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

Excel項目進度表模板，簡化您的項目進度管理">Excel項目進度表模板，簡化您的項目進度管理

友情鏈接

Python 編程：通過交集并集計算文檔相似度

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

Excel項目進度表模板，簡化您的項目進度管理">Excel項目進度表模板，簡化您的項目進度管理