【收藏】MyBatis 常用語法匯總
729
2025-03-31
文本預處理
Tokenizer(分詞器)
keras.preprocessing.text.Tokenizer(num_words=None, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ', lower=True, split=' ', char_level=False, oov_token=None, document_count=0)
1
2
3
4
5
6
7
該類允許使用兩種方法向量化一個文本語料庫:將每個文本轉化為一個整數序列(每個整數都是詞典中標記的索引);或者將其轉化為一個向量,其中每個標記的系數可以是二進制值、詞頻、TF-IDF權重等。
參數
num_words: 需要保留的最大詞數,基于詞頻。只有最常出現的 num_words 詞會被保留。
filters: 一個字符串,其中每個元素是一個將從文本中過濾掉的字符。默認值是所有標點符號,加上制表符和換行符,減去 ’ 字符。
lower: 布爾值。是否將文本轉換為小寫。
split: 字符串。按該字符串切割文本。
char_level: 如果為 True,則每個字符都將被視為標記。
oov_token: 如果給出,它將被添加到 word_index 中,并用于在 text_to_sequence 調用期間替換詞匯表外的單詞。
默認情況下,刪除所有標點符號,將文本轉換為空格分隔的單詞序列(單詞可能包含 ’ 字符)。 這些序列然后被分割成標記列表。然后它們將被索引或向量化。0 是不會被分配給任何單詞的保留索引。
hashing_trick
hashing_trick將文本轉換為固定大小散列空間中的索引序列。
keras.preprocessing.text.hashing_trick(text, n, hash_function=None, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ', lower=True, split=' ')
1
2
3
4
參數
text: 輸入文本(字符串)。
n: 散列空間維度。
hash_function: 默認為 python 散列函數,可以是 ‘md5’ 或任意接受輸入字符串并返回整數的函數。注意 ‘hash’ 不是穩定的散列函數,所以它在不同的運行中不一致,而 ‘md5’ 是一個穩定的散列函數。
filters: 要過濾的字符列表(或連接),如標點符號。默認:!"#$%&()*+,-./:;<=>?@[]^_{|}~,包含基本標點符號,制表符和換行符。
lower: 布爾值。是否將文本轉換為小寫。
split: 字符串。按該字符串切割文本。
返回值
整數詞索引列表(唯一性無法保證)。
0 是不會被分配給任何單詞的保留索引。
由于哈希函數可能發生沖突,可能會將兩個或更多字分配給同一索引。 碰撞的概率與散列空間的維度和不同對象的數量有關。
one_hot
One-hot將文本編碼為大小為 n 的單詞索引列表。這是 hashing_trick函數的一個封裝, 使用 hash 作為散列函數;單詞索引映射無保證唯一性。
keras.preprocessing.text.one_hot(text, n, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True, split=' ')
1
2
3
4
參數
text: 輸入文本(字符串)。
n: 整數。詞匯表尺寸。
filters: 要過濾的字符列表(或連接),如標點符號。默認:!"#$%&()*+,-./:;<=>?@[]^_{|}~,包含基本標點符號,制表符和換行符。
lower: 布爾值。是否將文本轉換為小寫。
split: 字符串。按該字符串切割文本。
返回值
[1, n] 之間的整數列表。每個整數編碼一個詞(唯一性無法保證)。
text_to_word_sequence
text_to_word_sequence將文本轉換為單詞(或標記)的序列。
keras.preprocessing.text.text_to_word_sequence(text, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ', lower=True, split=' ')
1
2
3
4
參數
text: 輸入文本(字符串)。
filters: 要過濾的字符列表(或連接),如標點符號。默認:!"#$%&()*+,-./:;<=>?@[]^_{|}~,包含基本標點符號,制表符和換行符。
lower: 布爾值。是否將文本轉換為小寫。
split: 字符串。按該字符串切割文本。
返回值
詞或標記的列表。
keras中文文檔
Keras
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。