數據科學 | Python數據科學常用庫

      網友投稿 876 2022-05-30

      Python 在解決數據科學任務和挑戰方面繼續處于領先地位。

      目錄

      核心庫

      IPython

      NumPy

      SciPy

      Pandas

      StatsModels

      可視化

      Matplotlib

      Seaborn

      Plotly

      Bokeh

      Pydot

      機器學習

      Scikit-learn

      XGBoost / LightGBM / CatBoost

      Eli5

      深度學習

      TensorFlow

      PyTorch

      Keras

      分布式深度學習

      Dist-keras / elephas / spark-deep-learning

      自然語言處理

      NLTK

      SpaCy

      Gensim

      數據采集

      Scrapy

      計算機視覺

      OpenCV

      生物

      BioPython

      化學

      RDKit

      核心庫

      IPython

      官網:http://ipython.org/

      增強的交互環境:支持變量自動補全,自動縮進,支持 bash shell 命令,內置了許多很有用的功能和函數。

      NumPy

      官網:http://www.numpy.org/

      NumPy 是科學應用程序庫的主要軟件包之一,用于處理大型多維數組和矩陣,它大量的高級數學函數集合和實現方法使得這些對象執行操作成為可能。

      SciPy

      官網:https://scipy.org/scipylib/

      科學計算的另一個核心庫是 SciPy。它基于 NumPy,其功能也因此得到了擴展。SciPy 主數據結構又是一個多維數組,由 Numpy 實現。這個軟件包包含了幫助解決線性代數、概率論、積分計算和許多其他任務的工具。此外,SciPy 還封裝了許多新的 BLAS 和 LAPACK 函數。

      Pandas

      官網:https://pandas.pydata.org/

      Pandas 是一個 Python 庫,提供高級的數據結構和各種各樣的分析工具。這個軟件包的主要特點是能夠將相當復雜的數據操作轉換為一兩個命令。Pandas包含許多用于分組、過濾和組合數據的內置方法,以及時間序列功能。

      StatsModels

      官網:http://www.statsmodels.org/devel/

      Statsmodels 是一個 Python 模塊,它為統計數據分析提供了許多機會,例如統計模型估計、執行統計測試等。在它的幫助下,你可以實現許多機器學習方法并探索不同的繪圖可能性。

      Python 庫不斷發展,不斷豐富新的機遇。因此,今年出現了時間序列的改進和新的計數模型,即 GeneralizedPoisson、零膨脹模型(zero inflated models)和 NegativeBinomialP,以及新的多元方法:因子分析、多元方差分析以及方差分析中的重復測量。

      可視化

      Matplotlib

      官網:https://matplotlib.org/index.html

      Matplotlib 是一個用于創建二維圖和圖形的底層庫。藉由它的幫助,你可以構建各種不同的圖標,從直方圖和散點圖到費笛卡爾坐標圖。此外,有許多流行的繪圖庫被設計為與matplotlib結合使用。

      Seaborn

      官網:https://seaborn.pydata.org/

      Seaborn 本質上是一個基于 matplotlib 庫的高級 API。它包含更適合處理圖表的默認設置。此外,還有豐富的可視化庫,包括一些復雜類型,如時間序列、聯合分布圖(jointplots)和小提琴圖(violin diagrams)。

      Plotly

      官網:https://plot.ly/python/

      Plotly 是一個流行的庫,它可以讓你輕松構建復雜的圖形。該軟件包適用于交互式 Web 應用程,可實現輪廓圖、三元圖和三維圖等視覺效果。

      Bokeh

      官網:https://bokeh.pydata.org/en/latest/

      Bokeh 庫使用 JavaScript 小部件在瀏覽器中創建交互式和可縮放的可視化。該庫提供了多種圖表集合,樣式可能性(styling possibilities),鏈接圖、添加小部件和定義回調等形式的交互能力,以及許多更有用的特性。

      Pydot

      官網:https://pypi.org/project/pydot/

      Pydot 是一個用于生成復雜的定向圖和無向圖的庫。它是用純 Python 編寫的Graphviz 接口。在它的幫助下,可以顯示圖形的結構,這在構建神經網絡和基于決策樹的算法時經常用到。

      機器學習

      Scikit-learn

      官網:http://scikit-learn.org/stable/

      這個基于 NumPy 和 SciPy 的 Python 模塊是處理數據的最佳庫之一。它為許多標準的機器學習和數據挖掘任務提供算法,如聚類、回歸、分類、降維和模型選擇。

      利用 Data Science School 提高你的技能

      Data Science School:http://datascience-school.com/

      XGBoost / LightGBM / CatBoost

      官網:http://xgboost.readthedocs.io/en/latest/http://lightgbm.readthedocs.io/en/latest/Python-Intro.htmlhttps://github.com/catboost/catboost

      梯度增強算法是最流行的機器學習算法之一,它是建立一個不斷改進的基本模型,即決策樹。因此,為了快速、方便地實現這個方法而設計了專門庫。就是說,我們認為 XGBoost、LightGBM 和 CatBoost 值得特別關注。它們都是解決常見問題的競爭者,并且使用方式幾乎相同。這些庫提供了高度優化的、可擴展的、快速的梯度增強實現,這使得它們在數據科學家和 Kaggle 競爭對手中非常流行,因為在這些算法的幫助下贏得了許多比賽。

      Eli5

      官網:https://eli5.readthedocs.io/en/latest/

      通常情況下,機器學習模型預測的結果并不完全清楚,這正是 Eli5 幫助應對的挑戰。它是一個用于可視化和調試機器學習模型并逐步跟蹤算法工作的軟件包,為 scikit-learn、XGBoost、LightGBM、lightning 和 sklearn-crfsuite 庫提供支持,并為每個庫執行不同的任務。

      深度學習

      TensorFlow

      官網:https://www.tensorflow.org/

      TensorFlow 是一個流行的深度學習和機器學習框架,由 Google Brain 開發。它提供了使用具有多個數據集的人工神經網絡的能力。在最流行的 TensorFlow應用中有目標識別、語音識別等。在常規的 TensorFlow 上也有不同的 leyer-helper,如 tflearn、tf-slim、skflow 等。

      PyTorch

      官網:https://pytorch.org/

      PyTorch 是一個大型框架,它允許使用 GPU 加速執行張量計算,創建動態計算圖并自動計算梯度。在此之上,PyTorch 為解決與神經網絡相關的應用程序提供了豐富的 API。該庫基于 Torch,是用 C 實現的開源深度學習庫。

      Keras

      官網:https://keras.io/

      Keras 是一個用于處理神經網絡的高級庫,運行在 TensorFlow、Theano 之上,現在由于新版本的發布,還可以使用 CNTK 和 MxNet 作為后端。它簡化了許多特定的任務,并且大大減少了單調代碼的數量。然而,它可能不適合某些復雜的任務。

      分布式深度學習

      Dist-keras / elephas / spark-deep-learning

      官網:http://joerihermans.com/work/distributed-keras/https://pypi.org/project/elephas/https://databricks.github.io/spark-deep-learning/site/index.html

      隨著越來越多的用例需要花費大量的精力和時間,深度學習問題變得越來越重要。然而,使用像 Apache Spark 這樣的分布式計算系統,處理如此多的數據要容易得多,這再次擴展了深入學習的可能性。因此,dist-keras、elephas 和 spark-deep-learning 都在迅速流行和發展,而且很難挑出一個庫,因為它們都是為解決共同的任務而設計的。這些包允許你在 Apache Spark 的幫助下直接訓練基于 Keras 庫的神經網絡。Spark-deep-learning 還提供了使用 Python 神經網絡創建管道的工具。

      自然語言處理

      NLTK

      官網:https://www.nltk.org/

      數據科學 | Python數據科學常用庫

      NLTK 是一組庫,一個用于自然語言處理的完整平臺。在 NLTK 的幫助下,你可以以各種方式處理和分析文本,對文本進行標記和標記,提取信息等。NLTK 也用于原型設計和建立研究系統。

      SpaCy

      官網:https://spacy.io/

      SpaCy 是一個具有優秀示例、API 文檔和演示應用程序的自然語言處理庫。這個庫是用 Cython 語言編寫的,Cython 是 Python 的 C 擴展。它支持近 30 種語言,提供了簡單的深度學習集成,保證了健壯性和高準確率。SpaCy 的另一個重要特性是專為整個文檔處理設計的體系結構,無須將文檔分解成短語。

      Gensim

      官網:https://radimrehurek.com/gensim/

      Gensim 是一個用于健壯語義分析、主題建模和向量空間建模的 Python 庫,構建在Numpy和Scipy之上。它提供了流行的NLP算法的實現,如 word2vec。盡管 gensim 有自己的 models.wrappers.fasttext實現,但 fasttext 庫也可以用來高效學習詞語表示。

      數據采集

      Scrapy

      官網:https://scrapy.org/

      Scrapy 是一個用來創建網絡爬蟲,掃描網頁和收集結構化數據的庫。此外,Scrapy 可以從 API 中提取數據。由于該庫的可擴展性和可移植性,使得它用起來非常方便。

      計算機視覺

      OpenCV

      OpenCV是一個C++庫,用于實時處理計算機視覺方面的問題,涵蓋了很多計算機視覺領域的模塊。

      OpenCV有兩個Python接口,老版本的cv模塊使用OpenCV內置的數據類型,新版本的cv2模塊使用NumPy數組。

      生物

      BioPython

      官網:http://www.biopython.org

      Biopython工程是一個使用Python來開發計算分子生物學工具的國際團體。(http://www.python.org) Python是一種面向對象的、解釋型的、靈活的語言,在計算機科學中日益流行。Python易學,語法明晰,并且能很容易的使用以C,C++或 者FORTRAN編寫的模塊實現擴展。

      Biopython為使用和研究生物信息學的開發者提供了一個在線的 資源庫,包括模塊、腳本以及一些基于Python的軟件的網站鏈接。一般來講,Biopython致力于通過創造高質量的和可重復利用的模塊及 類,從而使得Python在生物信息學中的應用變得更加容易。Biopython的特點包括解析各種生物信息學格式的文件(BLAST, Clustalw, FASTA, Genbank...),訪問在線的服務器(NCBI,Expasy...),常見和不那么常見程序的接口(Clustalw, DSSP,MSMS...),標準的序列類,各 種收集的模塊,KD樹數據結構等等,還有一些文檔。

      化學

      RDKit

      官網:http://www.rdkit.org

      RDKit在2000-2006年期間在Rational Discovery開發和使用,用于構建吸收、分布、代謝、代謝、毒性和生物活性的預測模型。2006年6月Rational Discovery被關閉,但該工具包在BSD許可證下作為開源發布。目前,RDKit的開源開發由諾華積極貢獻,其中包括諾華捐贈的源代碼。

      RDKit提供各種功能,如不同的化學I/O格式,包括SMILES/SMARTS,結構數據格式(SDF),Thor數據樹(TDT),Sybyl線符號(SLN),Corina mol2和蛋白質數據庫(PDB)。子結構搜索; 標準SMILES; 手性支持;化學轉化;化學反應;分子序列化;相似性/多樣性選擇;二維藥效團;分層子圖/片段分析; Bemis和Murcko骨架;逆合成組合分析程序(RECAP); 多分子最大共同亞結構;功能圖;基于形狀的相似性;基于RMSD的分子分子比對;基于形狀的對齊;使用Open3-DALIGN算法的無監督分子-分子比對;與PyMOL進行3D可視化集成;功能組過濾;分子描述符庫;相似圖;機器學習等等

      https://blog.csdn.net/weixin_34166847/article/details/89695804

      https://www.cnblogs.com/renwoixng/p/11020663.html

      Python 數據挖掘

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:LabVIEW控制Arduino流水燈(基礎篇—3)
      下一篇:大數據基礎學習四:偽分布式 Hadoop 在 Ubuntu 上的安裝流程完整步驟、易錯點分析及需要注意的問題
      相關文章
      vvvv99日韩精品亚洲| 国产亚洲精品资源在线26u| 久久久久无码专区亚洲av | 亚洲日本成本人观看| 亚洲国产成人九九综合| 亚洲三级电影网址| 亚洲天天在线日亚洲洲精| 亚洲人成在线播放网站岛国| 亚洲日本va午夜中文字幕一区| 亚洲AV无码码潮喷在线观看| 亚洲成A人片在线观看WWW| 亚洲va无码va在线va天堂| 亚洲成AV人片在线观看| 亚洲国产精品不卡在线电影| 亚洲人成电影亚洲人成9999网| 久久亚洲AV成人出白浆无码国产| 亚洲一区免费观看| 亚洲精品一区二区三区四区乱码| 亚洲美女中文字幕| 亚洲a级片在线观看| 亚洲精品一二三区| 亚洲第一街区偷拍街拍| 四虎精品亚洲一区二区三区| 亚洲精品老司机在线观看| 久久久久亚洲AV无码专区桃色| 亚洲综合色自拍一区| 亚洲av中文无码乱人伦在线咪咕| 亚洲成a人片在线观看无码 | 亚洲AV无码乱码在线观看性色扶 | 亚洲成a人片毛片在线| 亚洲一级毛片免费看| 亚洲中文字幕乱码AV波多JI| 亚洲精品国产第一综合99久久| 亚洲JLZZJLZZ少妇| 亚洲国产精品激情在线观看| 亚洲午夜久久久影院| 亚洲好看的理论片电影| 亚洲成a人片毛片在线| 亚洲欧美日韩综合俺去了| 一级毛片直播亚洲| 亚洲精品无码不卡在线播放HE|