大神帶你實現 NLP 從入門到獲獎,還有免費算力可以薅!
上次寫了一篇如何利用百度AI Studio免費GPU資源來研究各種深度學習算法的文章,但有讀者反饋說還不夠深入,希望每個研究方向都出一個詳細的介紹,了解更多并用學到的知識去實戰。這篇文章以NLP為主題,通過公開課、項目熱榜、應用實踐和比賽資訊四個方面帶讀者實現NLP從入門到獲獎。
百度AI Studio有專門的NLP專題網站:
https://aistudio.baidu.com/aistudio/nlp?_=1571383513589
這篇文章將帶讀者走進NLP的世界,結合自己的學習過程,給讀者介紹從入門到獲獎的道路。
線上大神講課,不容錯過
AI Studio的NLP專區網站目前公布了三門免費公開課,這里介紹一下
《中文自然語言處理知識入門與應用》百度自然語言處理部主任架構師 孫珂
《篇章分析》百度自然語言處理部主任架構師 肖欣延
《中文NLP預訓練模型ERNIE》 百度自然語言處理部資深研發工程師 龔建
以上三個公開課都是百度的工程師大牛講課,內容干貨滿滿。由于頁面篇幅原因,NLP專題頁面的公開課只放了上面三個公開課。感興趣的可以在AI Studio課程板塊:
https://aistudio.baidu.com/aistudio/course
尋找更多公開課。
研究應用實踐,走近工業
本欄目會更貼近工業實踐,讓讀者能更了解各種深度學習模型在工業上是如何使用的。
分類任務:如何在客服對話中,識別客戶情緒的好壞
https://aistudio.baidu.com/aistudio/projectdetail/121630
匹配任務:如何根據用戶的搜索語句,為用戶推薦相似問題
https://aistudio.baidu.com/aistudio/projectdetail/125034
在問答類社區場景中,如何根據用戶的問題推薦更多其感興趣的相關內容?本節課程將基于此場景出發,講解NLP的語義相似度匹配的任務,本案例介紹NLP最基本的任務類型之一——文本相似度匹配,Pairwise、Pointwise兩種訓練模式,來計算兩個文本的相似程度。
如何從快遞單中抽取關鍵信息
https://aistudio.baidu.com/aistudio/projectDetail/131360
在以前的快遞表單信息填寫產品流程中,用戶需要識別表單概念再進行摘取對應關鍵信息填寫,例如省、市、街道,都要一項項填。而大家現在在填快遞地址時,會有粘貼地址就自動給你填上省市街道的體驗吧?這就是NLP的效果之一。NLP序列化標注任務將允許用戶直接輸入個人自然表述,然后機器自動識別關鍵信息傳入后臺表單中。本項目將演示如何從用戶提供的快遞單中,抽取姓名、電話、省、市、區、詳細地址等內容,形成結構化信息。這可以輔助物流行業從業者進行有效信息的提取,從而降低客戶填單的成本。
語言的中外翻譯,你應該知道的NLP生成任務
項目地址:
https://aistudio.baidu.com/aistudio/projectdetail/120044
翻譯是一個非常成熟的NLP生成任務的典型場景。但在成熟的產品背后,離不開不斷提升和完善的NLP算法。常規的機器翻譯方法有統計機器翻譯和神經機器翻譯,這里我們主要討論神經機器翻譯。本課將通過動手實踐做一個簡單的神經翻譯程序。
看看項目熱榜,鞏固學習
NLP專題網站目前推薦了6個fork數比較高的項目,這里簡單介紹下:
深度學習入門NLP-文本分類
本項目數據的來源是從網站上爬取的56821條數據中文新聞摘要, 包含了國際、文化、娛樂、體育、財經、汽車、教育、科技、房產、證券10種類別。項目利用CNN模型,實現根據文章摘要,自動給新聞分類。
項目地址:
https://aistudio.baidu.com/aistudio/projectdetail/78959
循環神經網絡NLP-情感分類
IMDB是一個包含了來自互聯網的50000條嚴重兩極分化的評論的數據集。本項目采用IMDB數據集,利用LSTM模型,實現了一個對評論的情感進行分類的模型。
項目地址:
https://aistudio.baidu.com/aistudio/projectdetail/78968
PaddleHub 情感分析教程
本示例展示如何使用PaddleHub Senta Module進行預測。Senta是百度NLP開放的中文情感分析模型,可以用于進行中文句子的情感分析,輸出結果為正向/中性/負向中的一個,關于模型的結構細節,請查看Senta,(https://github.com/baidu/senta) 本示例代碼選擇的是Senta-BiLSTM模型。
項目地址:
https://aistudio.baidu.com/aistudio/projectdetail/79398
深度學習進階NLP-機器翻譯
機器翻譯即用計算機實現從源語言到目標語言轉換的過程,是自然語言處理的重要研究領域之一。本項目采用WMT-14數據集,建立了一個encoder和一個decoder,實現了機器翻譯的簡單算法,利用代碼說明了RNN在機器翻譯中的重要作用。
項目地址:
https://aistudio.baidu.com/aistudio/projectdetail/78973
ERNIE情感分類實驗
ERNIE是百度的自研模型, 通過建模海量數據中的詞、實體及實體關系,學習真實世界的語義知識。相較于BERT學習原始語言信號,ERNIE直接對先驗語義知識單元進行建模,增強了模型語義表示能力,以Transformer為網絡基本組件,以Masked Bi-Language Model和Next Sentence Prediction為訓練目標,通過預訓練得到通用語義表示,再結合簡單的輸出層,應用到下游的 NLP 任務。本示例展示利用ERNIE進行文本分類任務。
項目地址:
https://aistudio.baidu.com/aistudio/projectdetail/90231
基于THUCNews數據集的文本分類
THUCNews是清華大學根據新浪新聞RSS訂閱頻道2005~2011年間的歷史數據篩選過濾生成,包含74萬篇新聞文檔(2.19 GB),均為UTF-8純文本格式。本項目利用LSTM模型,利用THUCNews作為輸入,訓練一個能識別新聞類別的模型,例如預測某個新聞是屬于游戲、財經還是時政等等。
項目地址:
https://aistudio.baidu.com/aistudio/projectdetail/85638
熱榜篇幅有限,未能窮盡百度AI Studio社區里的所有優秀項目,更多的項目可以點擊
https://aistudio.baidu.com/aistudio/projectoverview/public/1
關注比賽資訊,贏取獎金
目前NLP專題網站上有三個關于NLP的比賽,分別是
飛槳常規賽: 機器閱讀理解
https://aistudio.baidu.com/aistudio/competition/detail/4
飛槳常規賽:知識驅動對話
https://aistudio.baidu.com/aistudio/competition/detail/3
飛槳常規賽: 問答摘要與推理
https://aistudio.baidu.com/aistudio/competition/detail/14
參與人數還沒很多,現在參與能贏取獎金的幾率很高,快去報名參加吧。
在線參加活動,獲得禮物
百度AI Studio將從即日起到10月31日舉行免費學AI送禮品的活動,在這期間完成:
完成上述任意項目的Fork
在AI Studio上新建自然語言處理相關并公開項目(注:不可直接fork公開或直接復制粘貼內容)
即可獲得百度精美禮品一份,獎品包括百度智能音箱、定制移動電源、定制數據線、GPU算力卡(含100小時免費算力)等,不容錯過。
詳細參與方式和規則參考鏈接:
https://ai.baidu.com/forum/topic/show/956441
最后,告訴大家一個好消息,AI Studio持續送算力,十月份深度學習開放月的活動,每天登陸送 24 小時算力。即便沒有活動,一天也能送12小時,學習開發綽綽有余,大家趕緊過來薅羊毛啊!
人工智能
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。