<del id="cw6kc"></del>

keras庫preprocessing.text文本預處理

網友投稿 729 2025-03-31

文本預處理

Tokenizer（分詞器）

keras.preprocessing.text.Tokenizer(num_words=None, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ', lower=True, split=' ', char_level=False, oov_token=None, document_count=0)

該類允許使用兩種方法向量化一個文本語料庫：將每個文本轉化為一個整數序列（每個整數都是詞典中標記的索引）；或者將其轉化為一個向量，其中每個標記的系數可以是二進制值、詞頻、TF-IDF權重等。

參數

num_words: 需要保留的最大詞數，基于詞頻。只有最常出現的 num_words 詞會被保留。

filters: 一個字符串，其中每個元素是一個將從文本中過濾掉的字符。默認值是所有標點符號，加上制表符和換行符，減去 ’ 字符。

lower: 布爾值。是否將文本轉換為小寫。

split: 字符串。按該字符串切割文本。

char_level: 如果為 True，則每個字符都將被視為標記。

oov_token: 如果給出，它將被添加到 word_index 中，并用于在 text_to_sequence 調用期間替換詞匯表外的單詞。

默認情況下，刪除所有標點符號，將文本轉換為空格分隔的單詞序列（單詞可能包含 ’ 字符）。這些序列然后被分割成標記列表。然后它們將被索引或向量化。0 是不會被分配給任何單詞的保留索引。

hashing_trick

hashing_trick將文本轉換為固定大小散列空間中的索引序列。

keras.preprocessing.text.hashing_trick(text, n, hash_function=None, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ', lower=True, split=' ')

參數

text: 輸入文本（字符串）。

n: 散列空間維度。

hash_function: 默認為 python 散列函數，可以是 ‘md5’ 或任意接受輸入字符串并返回整數的函數。注意 ‘hash’ 不是穩定的散列函數，所以它在不同的運行中不一致，而 ‘md5’ 是一個穩定的散列函數。

filters: 要過濾的字符列表（或連接），如標點符號。默認：!"#$%&()*+,-./:;<=>?@[]^_{|}~，包含基本標點符號，制表符和換行符。

lower: 布爾值。是否將文本轉換為小寫。

split: 字符串。按該字符串切割文本。

返回值

整數詞索引列表（唯一性無法保證）。

0 是不會被分配給任何單詞的保留索引。

由于哈希函數可能發生沖突，可能會將兩個或更多字分配給同一索引。碰撞的概率與散列空間的維度和不同對象的數量有關。

one_hot

One-hot將文本編碼為大小為 n 的單詞索引列表。這是 hashing_trick函數的一個封裝，使用 hash 作為散列函數；單詞索引映射無保證唯一性。

keras.preprocessing.text.one_hot(text, n, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True, split=' ')

參數

text: 輸入文本（字符串）。

n: 整數。詞匯表尺寸。

filters: 要過濾的字符列表（或連接），如標點符號。默認：!"#$%&()*+,-./:;<=>?@[]^_{|}~，包含基本標點符號，制表符和換行符。

lower: 布爾值。是否將文本轉換為小寫。

split: 字符串。按該字符串切割文本。

返回值

[1, n] 之間的整數列表。每個整數編碼一個詞（唯一性無法保證）。

text_to_word_sequence

text_to_word_sequence將文本轉換為單詞（或標記）的序列。

keras.preprocessing.text.text_to_word_sequence(text, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ', lower=True, split=' ')

keras庫preprocessing.text文本預處理

參數

text: 輸入文本（字符串）。

filters: 要過濾的字符列表（或連接），如標點符號。默認：!"#$%&()*+,-./:;<=>?@[]^_{|}~，包含基本標點符號，制表符和換行符。

lower: 布爾值。是否將文本轉換為小寫。

split: 字符串。按該字符串切割文本。

返回值

詞或標記的列表。

keras中文文檔

Keras

標簽：標點符號一個字二進制

<fieldset id="uwoou"></fieldset>

<fieldset id="uwoou"></fieldset>

<del id="uwoou"></del>

keras庫preprocessing.text文本預處理

【收藏】MyBatis 常用語法匯總

Linux之whereis命令

轉自coolshell--vim的基本操作

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接