keras庫preprocessing.text文本預處理

      網友投稿 729 2025-03-31

      文本預處理


      Tokenizer(分詞器)

      keras.preprocessing.text.Tokenizer(num_words=None, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ', lower=True, split=' ', char_level=False, oov_token=None, document_count=0)

      1

      2

      3

      4

      5

      6

      7

      該類允許使用兩種方法向量化一個文本語料庫:將每個文本轉化為一個整數序列(每個整數都是詞典中標記的索引);或者將其轉化為一個向量,其中每個標記的系數可以是二進制值、詞頻、TF-IDF權重等。

      參數

      num_words: 需要保留的最大詞數,基于詞頻。只有最常出現的 num_words 詞會被保留。

      filters: 一個字符串,其中每個元素是一個將從文本中過濾掉的字符。默認值是所有標點符號,加上制表符和換行符,減去 ’ 字符。

      lower: 布爾值。是否將文本轉換為小寫。

      split: 字符串。按該字符串切割文本。

      char_level: 如果為 True,則每個字符都將被視為標記。

      oov_token: 如果給出,它將被添加到 word_index 中,并用于在 text_to_sequence 調用期間替換詞匯表外的單詞。

      默認情況下,刪除所有標點符號,將文本轉換為空格分隔的單詞序列(單詞可能包含 ’ 字符)。 這些序列然后被分割成標記列表。然后它們將被索引或向量化。0 是不會被分配給任何單詞的保留索引。

      hashing_trick

      hashing_trick將文本轉換為固定大小散列空間中的索引序列。

      keras.preprocessing.text.hashing_trick(text, n, hash_function=None, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ', lower=True, split=' ')

      1

      2

      3

      4

      參數

      text: 輸入文本(字符串)。

      n: 散列空間維度。

      hash_function: 默認為 python 散列函數,可以是 ‘md5’ 或任意接受輸入字符串并返回整數的函數。注意 ‘hash’ 不是穩定的散列函數,所以它在不同的運行中不一致,而 ‘md5’ 是一個穩定的散列函數。

      filters: 要過濾的字符列表(或連接),如標點符號。默認:!"#$%&()*+,-./:;<=>?@[]^_{|}~,包含基本標點符號,制表符和換行符。

      lower: 布爾值。是否將文本轉換為小寫。

      split: 字符串。按該字符串切割文本。

      返回值

      整數詞索引列表(唯一性無法保證)。

      0 是不會被分配給任何單詞的保留索引。

      由于哈希函數可能發生沖突,可能會將兩個或更多字分配給同一索引。 碰撞的概率與散列空間的維度和不同對象的數量有關。

      one_hot

      One-hot將文本編碼為大小為 n 的單詞索引列表。這是 hashing_trick函數的一個封裝, 使用 hash 作為散列函數;單詞索引映射無保證唯一性。

      keras.preprocessing.text.one_hot(text, n, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True, split=' ')

      1

      2

      3

      4

      參數

      text: 輸入文本(字符串)。

      n: 整數。詞匯表尺寸。

      filters: 要過濾的字符列表(或連接),如標點符號。默認:!"#$%&()*+,-./:;<=>?@[]^_{|}~,包含基本標點符號,制表符和換行符。

      lower: 布爾值。是否將文本轉換為小寫。

      split: 字符串。按該字符串切割文本。

      返回值

      [1, n] 之間的整數列表。每個整數編碼一個詞(唯一性無法保證)。

      text_to_word_sequence

      text_to_word_sequence將文本轉換為單詞(或標記)的序列。

      keras.preprocessing.text.text_to_word_sequence(text, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ', lower=True, split=' ')

      keras庫preprocessing.text文本預處理

      1

      2

      3

      4

      參數

      text: 輸入文本(字符串)。

      filters: 要過濾的字符列表(或連接),如標點符號。默認:!"#$%&()*+,-./:;<=>?@[]^_{|}~,包含基本標點符號,制表符和換行符。

      lower: 布爾值。是否將文本轉換為小寫。

      split: 字符串。按該字符串切割文本。

      返回值

      詞或標記的列表。

      keras中文文檔

      Keras

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:WPS表可以很容易地找到參考數據和多條件求和使用常用的公式(wps根據條件求和公式)
      下一篇:ERP系統如何幫助乳制品企業培養客戶信任度
      相關文章
      亚洲男同帅GAY片在线观看| 亚洲视频在线一区二区| 国产成人亚洲综合| 国产亚洲精品2021自在线| 亚洲爆乳少妇无码激情| 亚洲国产区男人本色| 狠狠色伊人亚洲综合网站色| 亚洲综合中文字幕无线码| 国产成+人+综合+亚洲专| 激情亚洲一区国产精品| ass亚洲**毛茸茸pics| 91丁香亚洲综合社区| 亚洲色少妇熟女11p| 亚洲另类无码专区首页| 亚洲av午夜国产精品无码中文字| 亚洲精品美女久久7777777| 欧美激情综合亚洲一二区| 久久精品国产亚洲AV天海翼| 国产AV无码专区亚洲AV蜜芽| 色五月五月丁香亚洲综合网| 国产av无码专区亚洲av毛片搜| 亚洲A丁香五香天堂网| 亚洲精品专区在线观看| 国产亚洲精品不卡在线| 自拍偷自拍亚洲精品被多人伦好爽| 亚洲一级特黄大片无码毛片| 亚洲色成人中文字幕网站| 国产成人精品日本亚洲网站| 亚洲国产一区在线| 亚洲成人高清在线观看| 亚洲制服丝袜中文字幕| 亚洲女女女同性video| 国产精品亚洲精品日韩动图| 亚洲女人被黑人巨大进入| 亚洲色中文字幕无码AV| 亚洲AV电影院在线观看| 亚洲人成777在线播放| 亚洲av中文无码乱人伦在线观看| 一级毛片直播亚洲| 亚洲人JIZZ日本人| 久久亚洲美女精品国产精品|