<ul id="su8ye"></ul>

<del id="su8ye"></del>

【Python 成長之路】詞云圖制作

網友投稿 608 2025-03-31

【寫在前面】

以前看到過一些大神制作的詞云圖，覺得效果很有意思。如果有朋友不了解詞云圖的效果，可以看下面的幾張圖（圖片都是網上找到的）；

網上找了找相關的軟件，有些軟件制作還要付費。結果前幾天在大神的公眾號里的文章中看到了python也能實現，而且效果也很不錯。那還等什么，不趕緊盤它？

【示例代碼】

#?coding=utf-8 #?@Auther?:?"鵬哥賊優秀" #?@Date?:?2019/7/31 #?@Software?:?PyCharm import?numpy?as?np import?jieba from?PIL?import?Image from?wordcloud?import?WordCloud,?STOPWORDS import?matplotlib.pyplot?as?plt ? def?draw_word_cloud(word): ????words?=?jieba.cut(word) ????wordstr?=?"?".join(words) ????sw?=?set(STOPWORDS) ????sw.add("ok") ????mask?=?np.array(Image.open('2.jpg')) ????wc?=?WordCloud( ????????font_path='C:/Windows/Fonts/simhei.ttf',??#?設置字體格式 ????????mask=mask, ????????max_words=200, ????????max_font_size=100, ????????stopwords=sw, ????????scale=4, ????).generate(wordstr) ? ????#?顯示詞云圖 ????plt.imshow(wc) ????plt.axis("off") ????plt.show() ????#?保存詞云圖 ????wc.to_file('result.jpg') ? if?__name__?==?"__main__": ????with?open("test2.txt",?"rb")?as?f: ????????word?=?f.read() ????draw_word_cloud(word)

【效果如下】

【知識點】

1、詞云圖制作前，需要先準備幾個東西：

（1）下載python wordcloud庫，也是詞圖庫制作的關鍵庫。我在下載這個庫時，經常因為網絡超時導致下載失敗，怎么辦呢？多試幾次唄；

（2）numpy庫，用于圖片處理，將圖片讀取后解析成數組；

（3）如果要對中文句子進行分詞，那么需要jieba庫；如果是英文分詞，那可以不下載；

（4）如果要在界面上直接展示詞云圖，那么需要matlplotlib來畫圖；

（5）要處理圖片，根據少不了PIL，畢竟它可是官方的圖像處理庫；

2、接下來，就是準備要分析的內容。示例代碼中的txt內容，是我上一篇文章。然后就是詞云圖的形狀。示例代碼中的圖片2.jpg原圖如下：

【Python成長之路】詞云圖制作

3、準備工作做完了，那自然就開始編碼了。

（1）jieba.cut（）：就是對txt內容進行分詞了，注意得到的是個generator，因此需要將其轉成字符串；當然也可以使用jieba.lcut（），這樣得到的就是列表了；

（2）STOPWORDS集合的設置：停用詞有什么呢？主要是對一些你不想要的單詞進行過濾，比如“好的”“可以”這類單詞。另外，在對停用詞進行過濾時，有兩種方法，一種是像示例代碼，將stopwords作為wordcloud方法的參數，這樣最簡單；也可以自己寫段代碼，人為過濾停用詞；

（3）將你要的詞云圖形狀圖片打開，并作為參數傳給wordcloud方法

（4）wordcloud方法各參數的意義，可以參考其他帖子：

https://blog.csdn.net/kouyi5627/article/details/80530569

里面我想著重講的是regexp參數，即正則表達式。沒錯，就是正則表達式，有了這個參數，我們可以用正則表達式規則進一步實現自己的單詞過濾，比如\d只顯示數字。我之前遇到過這個坑，下面再講。

另外，scale=4生成的圖片一般是500KB左右，如果不填，默認只有10幾KB；

（5）對內容進行生成詞云圖時，generate方法最簡單，直接將字符串傳進來就可以；generate_from_frequencies方法的話，需要傳入字典，并自己統計好每個單詞的次數；

（6）界面顯示詞云圖的代碼很簡單，axis("off")是為了不顯示坐標，這樣更美觀；

（7）即將生成的詞云圖保存到本地，也不多解釋。

綜上，大致就是示例代碼的流程，是不是蠻簡單的？那自己動手來玩一次吧。

4、下面我再講講自己在制作詞云圖遇到的坑。

一開始我是想對各期雙色球號碼進行詞云圖分析的，結果一直報錯，錯誤如下：

ValueError: We need at least 1 word to plot a word cloud, got 0.

意思就是說我傳入的wordstr是空的？怎么可能呢，我明明有數字呀？最后我在wordcloud方法的官方說明中找到了原因：

看到沒？regexp參數如果不填寫的話，默認是會自動過濾掉單個詞的，因此數字就是因為這個原因一直被過濾了。怎么解決呢？有兩個辦法，第一就是傳入regexp參數，比如regexp="\d*"；第二種方法就是用

generate_from_frequencies方法，這樣因為有每個數字的頻繁在，就不會自動被過濾掉了。從我自己的使用結果來看，還是用第二種方法的效果好看點。

如果大家覺得看了有所幫助或者喜歡的話，可以關注我的公眾號“鵬哥賊優秀”，謝謝大家！

Python 正則表達式

標簽：Python 成長之路

辦公 自動化(三) | 借助服務器定時爬數據發郵件">python辦公 自動化(三) | 借助服務器定時爬數據發郵件

608 2025-03-31

Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝">[Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝

608 2025-03-31

Python 庫的安裝">Elasticsearch Python 庫的安裝

608 2025-03-31

<strike id="s2aau"></strike>

<tfoot id="s2aau"></tfoot>

<del id="s2aau"></del>

【Python 成長之路】詞云圖制作

辦公 自動化(三) | 借助服務器定時爬數據發郵件">python辦公 自動化(三) | 借助服務器定時爬數據發郵件

Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝">[Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝

Python 庫的安裝">Elasticsearch Python 庫的安裝

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

Excel項目進度表模板，簡化您的項目進度管理">Excel項目進度表模板，簡化您的項目進度管理

定制家居數字化管理模式：提升品質、智能化和個性化的未

友情鏈接