【TensorFlow】01 TensorFlow簡介與Python基礎
1567
2025-03-31
常見的30種NLP任務非常適合練手的Project
作用:研究+練手,加深理解,項目涵蓋95+%NLP業務場景。
下列Project都是類似論文實現那樣的demo級的,也不是傳統的工程實現,用的方法一般比工業界的高端,非常適合練手用。
文章目錄
1.分詞 Word Segmentation
2.詞預測 Word Prediction
3. 文本蘊涵 Textual Entailment
4. 語音識別 Automatic Speech Recognition
5. 自動摘要 Automatic Summarisation
6. 文本糾錯 Text Correct
7.字音轉換 Grapheme to Phoneme
8. 復述檢測 Paraphrase Detection 和 問答 Question Answering
9. 音漢互譯 Pinyin-To-Chinese
10. 情感分析 Sentiment Analysis
11. 手語識別 Sign Language Recognition
12. 詞性標注(POS)、 命名實體識別(NER)、 句法分析(parser)、 語義角色標注(SRL) 等。
13. 詞干 Word Stemming
14. 語言識別 Language Identification
15. 機器翻譯 Machine Translation
16. 復述生成 Paraphrase Generation
17. 關系抽取 Relationship Extraction
18. 句子邊界消歧 Sentence Boundary Disambiguation
19.事件抽取 Event Extraction
20. 詞義消歧 Word Sense Disambiguation
21. 命名實體消歧 Named Entity Disambiguation
22. 幽默檢測 Humor Detection
23. 諷刺檢測 Sarcasm Detection
24. 實體鏈接 Entity Linking
25. 指代消歧 Coreference Resolution
26. 關鍵詞/短語抽取和社會標簽推薦 Keyphrase Extraction and Social Tag Suggestion
REFERENCE
1.分詞 Word Segmentation
chqiwang/convseg ,基于CNN做中文分詞,提供數據和代碼。
對應的論文Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation IJCNLP2017.
2.詞預測 Word Prediction
Kyubyong/word_prediction ,基于CNN做詞預測,提供數據和代碼。
3. 文本蘊涵 Textual Entailment
Steven-Hewitt/Entailment-with-Tensorflow,基于Tensorflow做文本蘊涵,提供數據和代碼。
4. 語音識別 Automatic Speech Recognition
buriburisuri/speech-to-text-wavenet,基于DeepMind WaveNet和Tensorflow做句子級語音識別。
5. 自動摘要 Automatic Summarisation
PKULCWM/PKUSUMSUM,北大萬小軍老師團隊的自動摘要方法匯總,包含了他們大量paper的實現,支持單文檔摘要、多文檔摘要、topic-focused多文檔摘要。
6. 文本糾錯 Text Correct
atpaino/deep-text-corrector,基于深度學習做文本糾錯,提供數據和代碼。
7.字音轉換 Grapheme to Phoneme
cmusphinx/g2p-seq2seq,基于網紅transformer做, 提供數據和代碼。
8. 復述檢測 Paraphrase Detection 和 問答 Question Answering
Paraphrase-Driven Learning for Open Question Answering, 基于復述驅動學習的開放域問答。
9. 音漢互譯 Pinyin-To-Chinese
Kyubyong/neural_chinese_transliterator,基于CNN做音漢互譯。
10. 情感分析 Sentiment Analysis
情感分析包括的內容太多了,目前沒發現比較全的。推薦兩個適合練手的吧:Deeply Moving: Deep Learning for Sentiment Analysis,http://sentic.net/about/。
11. 手語識別 Sign Language Recognition
Home - SignAll, 該項目在手語識別做的非常成熟。
12. 詞性標注(POS)、 命名實體識別(NER)、 句法分析(parser)、 語義角色標注(SRL) 等。
HIT-SCIR/ltp, 包括代碼、模型、數據,還有詳細的文檔,而且效果還很好。
13. 詞干 Word Stemming
snowballstem/snowball, 實現的詞干效果還不錯。
14. 語言識別 Language Identification
https://github.com/saffsd/langid.py,語言識別比較好的開源工具。
15. 機器翻譯 Machine Translation
OpenNMT/OpenNMT-py, 基于PyTorch的神經機器翻譯,很適合練手。
16. 復述生成 Paraphrase Generation
vsuthichai/paraphraser,基于Tensorflow的句子級復述生成,適合練手。
17. 關系抽取 Relationship Extraction
ankitp94/relationship-extraction,基于核方法的關系抽取。
18. 句子邊界消歧 Sentence Boundary Disambiguation
https://github.com/Orekhov/SentenceBreaking,很有意思。
19.事件抽取 Event Extraction
liuhuanyong/ComplexEventExtraction, 中文復合事件抽取,包括條件事件、因果事件、順承事件、反轉事件等事件抽取,并形成事理圖譜。
20. 詞義消歧 Word Sense Disambiguation
alvations/pywsd,代碼不多,方法簡單,適合練手。
21. 命名實體消歧 Named Entity Disambiguation
dice-group/AGDISTIS,實體消歧是很重要的,尤其對于實體融合(比如知識圖譜中多源數據融合)、實體鏈接。
22. 幽默檢測 Humor Detection
pln-fing-udelar/pghumor
23. 諷刺檢測 Sarcasm Detection
AniSkywalker/SarcasmDetection,基于神經網絡的諷刺檢測。
24. 實體鏈接 Entity Linking
hasibi/EntityLinkingRetrieval-ELR, 實體鏈接用途非常廣,非常適合練手。
25. 指代消歧 Coreference Resolution
huggingface/neuralcoref,基于神經網絡的指代消歧。
26. 關鍵詞/短語抽取和社會標簽推薦 Keyphrase Extraction and Social Tag Suggestion
thunlp/THUTag, 用多種方法 實現了多種關鍵詞/短語抽取和社會標簽推薦。
REFERENCE
https://www.cnblogs.com/alan-blog-TsingHua/p/10624594.html
神經網絡 自然語言處理基礎
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。