Python編程通過交集并集計算文檔相似度

      網友投稿 819 2022-05-29

      分詞函數

      def split_word(document): """ 分詞,去除停用詞 """ stop_words = {":", "的", ",", "”"} text = [] for word in jieba.cut(document): if word not in stop_words: text.append(word) return text

      1

      2

      3

      4

      5

      6

      7

      8

      9

      10

      11

      通過交集并集計算文檔相似度

      from itertools import combinations documents = [ "窩趣公寓完成近2億元B輪融資主打品質和輕松社交的居住環境", "IBM的區塊鏈副總裁JesseLund:比特幣將達到100萬美元", "窩趣公寓完成近2億元B輪融資" ] # 計算兩兩組合的相似度 for doc1, doc2 in combinations(documents, 2): words1 = split_word(doc1) words2 = split_word(doc2) words1_set = set(words1) words2_set = set(words2) similar12 = len(words1_set & words2_set) / len(words1_set | words2_set) print("{:.2f}".format(similar12), doc1, doc2)

      1

      2

      3

      4

      5

      6

      7

      8

      9

      10

      11

      Python編程:通過交集并集計算文檔相似度

      12

      13

      14

      15

      16

      17

      18

      19

      計算結果

      0.00 窩趣公寓完成近2億元B輪融資主打品質和輕松社交的居住環境 IBM的區塊鏈副總裁JesseLund:比特幣將達到100萬美元 0.53 窩趣公寓完成近2億元B輪融資主打品質和輕松社交的居住環境 窩趣公寓完成近2億元B輪融資 0.00 IBM的區塊鏈副總裁JesseLund:比特幣將達到100萬美元 窩趣公寓完成近2億元B輪融資

      1

      2

      3

      Python 區塊鏈

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:WEB開發-HTML入門學習總結
      下一篇:《Office 2019高效辦公三合一從入門到精通 : 視頻自學版》 —3.6.3為文檔插入頁碼
      相關文章
      亚洲精品成人图区| 国产亚洲精品a在线观看| 亚洲综合婷婷久久| 亚洲中文字幕在线乱码| 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | 亚洲AV日韩AV永久无码久久| 亚洲人成77777在线播放网站| 亚洲午夜福利精品久久| 亚洲一本大道无码av天堂| 亚洲第一页综合图片自拍| 亚洲第一区在线观看| av在线亚洲欧洲日产一区二区| 亚洲国产成人久久综合野外| 亚洲精品动漫人成3d在线| 国产精品亚洲专区无码牛牛 | 亚洲线精品一区二区三区影音先锋| 亚洲精品tv久久久久久久久久| 亚洲av高清在线观看一区二区| 国产成人+综合亚洲+天堂| 狼人大香伊蕉国产WWW亚洲| 自拍偷自拍亚洲精品播放| 亚洲国产香蕉人人爽成AV片久久| 亚洲欧洲精品成人久久奇米网 | 亚洲狠狠婷婷综合久久久久| 亚洲精品无码永久中文字幕| 亚洲国产三级在线观看| 亚洲Av无码精品色午夜| 亚洲AV本道一区二区三区四区| 亚洲最新视频在线观看| 亚洲高清在线mv| 亚洲白色白色永久观看| 狠狠色香婷婷久久亚洲精品| 亚洲精品国产高清在线观看| 国产精品亚洲а∨天堂2021 | 亚洲情侣偷拍精品| 亚洲理论电影在线观看| 亚洲欧洲日产国码久在线观看| 亚洲综合色丁香麻豆| 2020亚洲男人天堂精品| 久久亚洲色WWW成人欧美| 亚洲男人的天堂在线va拉文|