<small id="gyasw"></small>

NLTK-004：加工原料文本

網友投稿 847 2025-03-31

從網絡和硬盤訪問文本

編號 2554 的文本是《罪與罰》的英文翻譯，我們可以用如下方式訪問它。

from urllib import request url = "http://www.gutenberg.org/files/2554/2554.txt" response = request.urlopen(url) raw = response.read().decode('utf8')

（如果是404之類的，得找個代理外網IP，下面訪問的都一樣… ）

所以假設獲取到了內容。變量raw是這本書原始的內容，包括很多我們不感興趣的細節，如空格、換行符和空行。請注意，文件中行尾的\r 和\n，是 Python 用來顯示特殊的回車和換行字符的方式

我們要對其進行分詞操作，產生一個詞匯和標點符號的鏈表。

tokens = nltk.word_tokenize(raw)

我們現在采取進一步的步驟從這個鏈表創建一個 NLTK 文本

text = nltk.Text(tokens)

我們可以進行我們在之前看到的所有的其他語言的處理，也包括常規的鏈表操作，例如切片：

text[1024:1062]

處理HTML

網絡上的文本大部分是 HTML 文件的形式。 HTML 的全部內容包括： meta 元標簽、圖像標簽、map 標

簽、JavaScript、表單和表格。

我們可以使用BeautifulSoup或者其他庫來從HTML中提取文本，然后我們可以對原始文本進行分詞：

from bs4 import BeautifulSoup raw = BeautifulSoup(html).get_text() tokens = nltk.word_tokenize(raw)

你可以選擇你感興趣的標識符，按照前面講的那樣初始化一個文本。

tokens = tokens[110:390] text = nltk.Text(tokens) text.concordance('gene')

訪問單個字符

我們可以計數單個字符。通過將所有字符小寫來忽略大小寫的區分，并過濾掉非字母字符。

from nltk.corpus import gutenberg raw = gutenberg.raw('melville-moby_dick.txt') fdist = nltk.FreqDist(ch.lower() for ch in raw if ch.isalpha()) fdist.most_common(5) fdist.plot()

使用 Unicode 進行文字處理

Unicode支持超過一百萬種字符。每個字符分配一個編號，稱為編碼點。在 Python 中，編碼點寫作\uXXXX 的形式，其中 XXXX是四位十六進制形式數。

解碼：將文本翻譯成Unicode；

編碼：將Unicode 轉化為其它編碼的過程；

從文件中提取已編碼文本：

假設我們有一個小的文本文件，我們知道它是如何編碼的。例如：polish-lat2.txt 顧名思義是波蘭語的文本片段（來源波蘭語 Wikipedia；可以在 http://pl.wikipedia.org/wiki/Biblioteka_Pruska中看到）。此文件是 Latin-2 編碼的，也稱為 ISO-8859-2。nltk.data.find()函數為我們定位文件。

path = nltk.data.find('corpora/unicode_samples/polish-lat2.txt')

codecs模塊：提供了將編碼數據讀入為Unicode 字符串和將Unicode 字符串以編碼形式寫出的函數。

codecs.open()函數：encoding 參數來指定被讀取或寫入的文件的編碼。

NLTK-004：加工原料文本

f = open(path, encoding='latin2') for line in f: line = line.strip() print(line)

HTML

標簽：NLTK 加工

NLTK-004：加工原料文本

使用 Python 的 NLTK 包進行自然語言處理 |【生長吧！Python!】【生長吧！Python】有獎征文火熱進行中：https://bbs.huaweicloud.com/blogs/278897（使用驅動器u盤之前需要格式化）

機器學習自然語言處理之英文NLTK（代碼+原理）

基于NLTK搭建stanford parser環境

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接