0基礎小白第一次做web前端沖擊的經歷 丨【WEB前端大作戰】
751
2025-04-02
1、背景
根據百度百科,詞云這個概念來自于美國西北大學新聞學副教授、新媒體專業主任里奇·戈登(Rich Gordon),戈登曾擔任邁阿密先驅報(Miami Herald)新媒體版的主任。他認為“詞云”就是對網絡文本中出現頻率較高的“關鍵詞”的視覺上的突出。
而詞云圖是將網絡文本數據中出現頻率較高的關鍵詞以可視化的形式展現出來,讓人能很直觀地了解到文本數據中的關鍵詞匯,從而過濾掉大量的文本信息,瀏覽網頁者不用讀文本,只要看過詞云領略文本的主旨。
2、詞云圖工具簡介
由于詞云圖可廣泛用于諸如:PPT制作、海報制作、用戶畫像、劇本任務分析等等,諸多場景。有較多的相關詞云制作工具,例如:Wordle、WordItOut、ToCloud等。但我們也可以用Python這個利器,在華為云的ModelArts上制作更有個性的詞云圖。
3、采用ModelArts制作詞云圖的過程
本文以《魔戒》、《射雕英雄傳》、《貝多芬傳》為例,通過十個步驟帶領大家制作這三部小說的詞云圖。
當然在準備制作詞云前,先要準備好文本文件,以及詞云圖的背景圖片。下面我們開始:
第一步:準備小說文本,注意要存為UTF-8編碼模式。
第二步:準備相應的詞云背景圖,注意要將圖片設置為背景為白色圖片(如第三張,鋼琴的圖片)。
第三步:進入華為云ModelArts界面,并進入開發環境下Notebook后,點“創建”
第四步:創建Notebook,注意選擇工作環境是python3、類型為GPU、規格是【限時免費】體驗規格、儲存配置是云硬盤(EVS),配置完成后,點“下一步”,再點“提交”。我們就創建好了一個Notebook。
第五步:啟動Notebook
第六步:打開JupyterLab,選擇Notebook下,TensorFlow-1.13.1環境
第七步:加載gen_wordcloud.py文件,該文件-是:
https://modelarts-labs-bj4.obs.cn-north-4.myhuaweicloud.com/notebook/DL_nlp_introduction/gen_wordcloud.py
該文件加載了如下庫:
import os
import jieba
import chardet
import requests
import subprocess
import numpy as np
from PIL import Image
from wordcloud import WordCloud, ImageColorGenerator
第八步:繼續加載已經做好的文本文件——魔戒.txt、射雕英雄傳.txt、貝多芬傳.txt,以及做好的詞云背景圖片文件
根據需要調整讀取的文件和詞云圖背景文件:
txt_path = './貝多芬傳.txt'
mask_img_path ='./bei3.png'
第九步:根據不同文本文件、圖片文件,設定不同路徑,運行程序后,分別得到魔戒、射雕英雄傳、貝多芬傳的不同詞云圖片
第十步:感覺詞云圖邊緣不是很清楚,給詞云圖增加邊框,增補調整參數如下:
contour_width=1, contour_color='steelblue'
運行程序后,得到如下詞云圖:
4、總結
經過以上十步,我們利用華為云ModelArts的JupyterLab,實現了幾本小說的簡單詞云圖的展示,并根據不同需要調整參數,構建獨有的詞云圖。有興趣的小伙伴,可以來試試調整其他的參數,來可以構建自己喜歡的詞云圖。
AI 自然語言處理 云學院
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。