Python成長之路】詞云圖制作

      網友投稿 608 2025-03-31

      【寫在前面】

      以前看到過一些大神制作的詞云圖 ,覺得效果很有意思。如果有朋友不了解詞云圖的效果,可以看下面的幾張圖(圖片都是網上找到的);

      網上找了找相關的軟件,有些軟件制作 還要付費。結果前幾天在大神的公眾號里的文章中看到了python也能實現,而且效果也很不錯 。那還等什么,不趕緊盤它?

      【示例代碼】

      #?coding=utf-8 #?@Auther?:?"鵬哥賊優秀" #?@Date?:?2019/7/31 #?@Software?:?PyCharm import?numpy?as?np import?jieba from?PIL?import?Image from?wordcloud?import?WordCloud,?STOPWORDS import?matplotlib.pyplot?as?plt ? def?draw_word_cloud(word): ????words?=?jieba.cut(word) ????wordstr?=?"?".join(words) ????sw?=?set(STOPWORDS) ????sw.add("ok") ????mask?=?np.array(Image.open('2.jpg')) ????wc?=?WordCloud( ????????font_path='C:/Windows/Fonts/simhei.ttf',??#?設置字體格式 ????????mask=mask, ????????max_words=200, ????????max_font_size=100, ????????stopwords=sw, ????????scale=4, ????).generate(wordstr) ? ????#?顯示詞云圖 ????plt.imshow(wc) ????plt.axis("off") ????plt.show() ????#?保存詞云圖 ????wc.to_file('result.jpg') ? if?__name__?==?"__main__": ????with?open("test2.txt",?"rb")?as?f: ????????word?=?f.read() ????draw_word_cloud(word)

      【效果如下】

      【知識點】

      1、詞云圖 制作前,需要先準備幾個東西:

      (1)下載python wordcloud庫,也是詞圖庫制作的關鍵庫。我在下載這個庫 時,經常因為網絡超時導致下載失敗,怎么辦呢?多試幾次唄;

      (2)numpy庫,用于圖片處理,將圖片讀取后解析成數組;

      (3)如果要對中文句子進行分詞,那么需要jieba庫;如果是英文分詞,那可以不下載;

      (4)如果要在界面上直接展示詞云圖 ,那么需要matlplotlib來畫圖;

      (5)要處理圖片,根據少不了PIL,畢竟它可是官方的圖像處理庫;

      2、接下來,就是準備要分析的內容。示例代碼中的txt內容,是我上一篇文章。然后就是詞云圖的形狀。示例代碼中的圖片2.jpg原圖如下:

      【Python成長之路】詞云圖制作

      3、準備工作 做完了,那自然就開始編碼了。

      (1)jieba.cut():就是對txt內容進行分詞了,注意得到的是個generator,因此需要將其轉成字符串;當然也可以使用jieba.lcut(),這 樣得到的就是列表了;

      (2)STOPWORDS集合的設置:停用詞有什么呢?主要是對一些你不想要的單詞進行過濾,比如“好的”“可以”這 類單詞。另外,在對停用詞進行過濾時,有兩種方法,一種是像示例代碼,將stopwords作為wordcloud方法的參數,這樣最簡單;也可以自己寫段代碼,人為過濾停用詞;

      (3)將你要的詞云圖形狀圖片打開,并作為參數傳給wordcloud方法

      (4)wordcloud方法各參數的意義,可以參考其他帖子:

      https://blog.csdn.net/kouyi5627/article/details/80530569

      里面我想著重講的是regexp參數,即正則表達式。沒錯,就是正則表達式,有了這個參數,我們可以用正則表達式規則進一步實現自己的單詞過濾,比如\d只顯示數字。我之前遇到過 這 個坑,下面再講。

      另外,scale=4生成的圖片一般是500KB左右,如果不填,默認只有10幾KB;

      (5)對內容進行生成詞云圖時,generate方法最簡單,直接將字符串傳進來就可以;generate_from_frequencies方法的話,需要傳入字典,并自己統計好每個單詞的次數;

      (6)界面顯示詞云圖的代碼很簡單,axis("off")是為了不顯示坐標,這樣更美觀;

      (7)即將生成的詞云圖保存到本地,也不多解釋。

      綜上,大致就是示例代碼 的流程,是不是蠻簡單的?那自己動手來玩一次吧。

      4、下面我再講講自己在制作詞云圖遇到的坑。

      一開始我是想對各期雙色球號碼進行詞云圖分析的,結果一直報錯,錯誤如下:

      ValueError: We need at least 1 word to plot a word cloud, got 0.

      意思就是說我傳入的wordstr是空的?怎么可能呢,我明明有數字呀?最后我在wordcloud方法的官方說明中找到了原因:

      看到沒?regexp參數如果不填寫的話,默認是會自動過濾掉單個詞的,因此數字就是因為這個原因一直被過濾了。怎么解決呢?有兩個辦法,第一就是傳入regexp參數,比如regexp="\d*";第二種方法就是用

      generate_from_frequencies方法,這樣因為有每個數字的頻繁在,就不會自動被過濾掉了。從我自己的使用結果來看,還是用第二種方法的效果好看點。

      如果大家覺得看了有所幫助或者喜歡的話,可以關注我的公眾號“鵬哥賊優秀”,謝謝大家!

      Python 正則表達式

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:excel表格數字替換的教程(表格中替換數字怎么弄)
      下一篇:生產決策系統(決策信息系統)
      相關文章
      色噜噜亚洲男人的天堂| 亚洲国产精品久久人人爱| 亚洲成AV人综合在线观看 | 亚洲偷自拍另类图片二区| 亚洲偷自精品三十六区| 亚洲乱码一二三四五六区| 亚洲图片中文字幕| 亚洲成av人片在线看片| 亚洲国产成AV人天堂无码| 亚洲国产成人手机在线电影bd | 亚洲国产成人VA在线观看| 在线观看亚洲免费| 亚洲福利精品一区二区三区| 另类小说亚洲色图| 亚洲国产免费综合| 久久久久亚洲av毛片大| 亚洲精品无码久久久| 老司机亚洲精品影视www| 久久伊人亚洲AV无码网站| 中文字幕不卡亚洲| 国产∨亚洲V天堂无码久久久| 亚洲精品美女久久777777| 亚洲av之男人的天堂网站| 久久久国产精品亚洲一区| 亚洲神级电影国语版| 亚洲人成777在线播放| 亚洲 日韩 色 图网站| 亚洲av日韩综合一区二区三区| 国产成人精品亚洲一区| 亚洲人成网站观看在线播放| 国产AV无码专区亚洲AV漫画 | 亚洲色大成网站www| 色天使色婷婷在线影院亚洲| 国产精品V亚洲精品V日韩精品| 亚洲中文字幕第一页在线| 久久精品国产99精品国产亚洲性色| 91精品国产亚洲爽啪在线观看| 亚洲人和日本人jizz| 看亚洲a级一级毛片| 久久精品国产精品亚洲下载| 国产亚洲精品a在线无码|