Python大規模機器學習》— 2.2.3 使用pandas I/O工具

      網友投稿 761 2025-04-01

      《Python大規模機器學習》— 2.2.3 使用pandas I/O工具

      2.2.3????使用pandas I/O工具

      我們可以使用pandas的read_csv函數替代csv模塊。該函數專門用于上傳CSV文件,pandas有大量支持多種文件格式的I/O函數,這是其中之一。相關文檔資料請查看http://pandas.pydata.org/pandas-docs/stable/io.html。

      使用pandas的I/O函數的優點如下:

      如果更改源代碼類型,能保持代碼一致性,也就是說,只需要重新定義流迭代器。

      支持多種格式,如CSV、普通TXT、HDF、JSON和對特定數據庫的SQL查詢等。

      數據以DataFrame數據結構的形式流入所需大小的數據塊,以便以位置方式或通過調用其標簽來訪問這些特征,這要用到.loc、.iloc、.ix等典型的pandas數據切割方法。

      下面的示例仍然使用與之前相同的方法,但使用pandas的read_csv函數建立流數據:

      這里需要注意的是,迭代器是通過指定塊大小來實例化的,也就是說,迭代器在每次迭代時必須返回行數。chunksize參數假設值的范圍是從1到任何值,但很明顯,小批量處理(檢索到的塊)的大小與可用內存緊密相連,以便在后續預處理階段中存儲和操作它。

      將較大數據塊調入內存具有的優勢僅僅體現在磁盤訪問上。根據物理存儲特性,較小數據塊需要對磁盤進行多次訪問,這會花費更長時間來傳遞數據。然而,從機器學習角度來看,較小或較大的塊對Scikit中的非核心學習函數幾乎沒有影響,因為它們每次只學習一個實例,從而使得它們在計算成本上呈現真正的線性化。

      機器學習 Python

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:ppt表格居中怎么弄正中間
      下一篇:無遠低代碼開發平臺(無代碼 平臺)
      相關文章
      亚洲av福利无码无一区二区| 国产亚洲精品国看不卡| 亚洲欧洲免费视频| 亚洲精品无码午夜福利中文字幕 | 亚洲黄色高清视频| 久久久无码精品亚洲日韩蜜臀浪潮| 亚洲人成77777在线播放网站| 自拍偷自拍亚洲精品被多人伦好爽| 亚洲欧洲中文日韩av乱码| 亚洲国产一级在线观看| 亚洲第一区在线观看| 亚洲午夜激情视频| 亚洲精品你懂的在线观看| 久久久久久a亚洲欧洲AV| 亚洲男人天堂2017| 亚洲精品免费在线视频| 亚洲第一成年人网站| 亚洲人成在线精品| 亚洲va久久久久| 亚洲AV永久无码精品放毛片| WWW国产亚洲精品久久麻豆| 国产亚洲日韩在线a不卡| 亚洲色一色噜一噜噜噜| 亚洲熟妇av一区二区三区| 人人狠狠综合久久亚洲婷婷| 亚洲av日韩av激情亚洲| 亚洲美女视频一区| 亚洲AV男人的天堂在线观看| 亚洲大码熟女在线观看| 亚洲äv永久无码精品天堂久久| 亚洲国产aⅴ综合网| 中文亚洲成a人片在线观看| 久久夜色精品国产亚洲| 亚洲资源在线视频| 2019亚洲午夜无码天堂| 亚洲男人的天堂网站| 亚洲精品黄色视频在线观看免费资源| 久久国产成人亚洲精品影院| 久久久久亚洲AV片无码| 亚洲一级大黄大色毛片| 久久精品国产亚洲AV未满十八 |