Python 統(tǒng)計基礎(chǔ):(二)如何描述您的數(shù)據(jù)

      網(wǎng)友投稿 1090 2022-05-30

      目錄

      處理二維數(shù)據(jù)

      數(shù)據(jù)幀

      可視化數(shù)據(jù)

      箱線圖

      直方圖

      餅狀圖

      條形圖

      XY 圖

      熱圖

      結(jié)論

      處理二維數(shù)據(jù)

      統(tǒng)計學(xué)家經(jīng)常使用二維數(shù)據(jù)。以下是 2D 數(shù)據(jù)格式的一些示例:

      數(shù)據(jù)庫表

      CSV 文件

      Excel、Calc 和 Google電子表格

      NumPy 和 SciPy 提供了一種處理二維數(shù)據(jù)的綜合方法。Pandas 有DataFrame專門用于處理 2D 標記數(shù)據(jù)的類。

      首先創(chuàng)建一個 2D NumPy 數(shù)組:

      >>>

      >>> a = np.array([[1, 1, 1], ... [2, 3, 1], ... [4, 9, 2], ... [8, 27, 4], ... [16, 1, 1]]) >>> a array([[ 1, 1, 1], [ 2, 3, 1], [ 4, 9, 2], [ 8, 27, 4], [16, 1, 1]])

      現(xiàn)在您有一個 2D 數(shù)據(jù)集,您將在本節(jié)中使用它。您可以像處理一維數(shù)據(jù)一樣將 Python 統(tǒng)計函數(shù)和方法應(yīng)用于它:

      >>>

      >>> np.mean(a) 5.4 >>> a.mean() 5.4 >>> np.median(a) 2.0 >>> a.var(ddof=1) 53.40000000000001

      如您所見,您可以獲得數(shù)組中所有數(shù)據(jù)的統(tǒng)計數(shù)據(jù)(如均值、中位數(shù)或方差)a。有時,這種行為正是您想要的,但在某些情況下,您需要為二維數(shù)組的每一行或每一列計算這些數(shù)量。

      到目前為止,您使用的函數(shù)和方法都有一個名為 的可選參數(shù)axis,它對于處理 2D 數(shù)據(jù)至關(guān)重要。axis可以采用以下任何值:

      axis=None表示計算數(shù)組中所有數(shù)據(jù)的統(tǒng)計信息。上面的例子是這樣工作的。此行為通常是 NumPy 中的默認設(shè)置。

      axis=0表示計算所有行的統(tǒng)計信息,即數(shù)組的每一列。這種行為通常是 SciPy 統(tǒng)計函數(shù)的默認行為。

      axis=1?表示計算所有列的統(tǒng)計信息,即數(shù)組的每一行。

      讓我們來看看axis=0在行動np.mean():

      Python 統(tǒng)計基礎(chǔ):(二)如何描述您的數(shù)據(jù)

      >>>

      >>> np.mean(a, axis=0) array([6.2, 8.2, 1.8]) >>> a.mean(axis=0) array([6.2, 8.2, 1.8])

      上面的兩個語句返回新的 NumPy 數(shù)組,每個數(shù)組的平均值為a。在這個例子中,第一列的平均值是6.2。第二列有均值8.2,而第三列有1.8。

      如果您提供axis=1給mean(),那么您將獲得每一行的結(jié)果:

      >>>

      >>> np.mean(a, axis=1) array([ 1., 2., 5., 13., 6.]) >>> a.mean(axis=1) array([ 1., 2., 5., 13., 6.])

      如您所見,第一行a有 mean?1.0,第二行2.0,依此類推。

      注意:您可以將這些規(guī)則擴展到多維數(shù)組,但這超出了本教程的范圍。隨意深入研究這個主題!

      該參數(shù)axis與其他 NumPy 函數(shù)和方法的工作方式相同:

      >>>

      >>> np.median(a, axis=0) array([4., 3., 1.]) >>> np.median(a, axis=1) array([1., 2., 4., 8., 1.]) >>> a.var(axis=0, ddof=1) array([ 37.2, 121.2, 1.7]) >>> a.var(axis=1, ddof=1) array([ 0., 1., 13., 151., 75.])

      您已獲得數(shù)組所有列 (?axis=0) 和行 (?axis=1)的中位數(shù)和樣本變化a。

      當(dāng)您使用 SciPy 統(tǒng)計函數(shù)時,這非常相似。但請記住,在這種情況下,默認值axis是0:

      >>>

      >>> scipy.stats.gmean(a) # Default: axis=0 array([4. , 3.73719282, 1.51571657]) >>> scipy.stats.gmean(a, axis=0) array([4. , 3.73719282, 1.51571657])

      如果您省略axis或提供axis=0,那么您將獲得所有行(即每一列)的結(jié)果。例如, 的第一列的a幾何平均值為4.0,依此類推。

      如果您指定axis=1,那么您將獲得所有列的計算,即每一行:

      >>>

      >>> scipy.stats.gmean(a, axis=1) array([1. , 1.81712059, 4.16016765, 9.52440631, 2.5198421 ])

      在這個例子中,第一行的幾何平均值a是1.0。對于第二行,它大約是1.82,依此類推。

      如果你想要整個數(shù)據(jù)集的統(tǒng)計數(shù)據(jù),那么你必須提供axis=None:

      >>>

      >>> scipy.stats.gmean(a, axis=None) 2.829705017016332

      數(shù)組中所有項的幾何平均值a約為2.83。

      您可以使用scipy.stats.describe()對二維數(shù)據(jù)進行單個函數(shù)調(diào)用,從而獲得 Python 統(tǒng)計摘要。它的工作原理類似于一維數(shù)組,但你必須小心參數(shù)axis:

      >>>

      >>> scipy.stats.describe(a, axis=None, ddof=1, bias=False) DescribeResult(nobs=15, minmax=(1, 27), mean=5.4, variance=53.40000000000001, skewness=2.264965290423389, kurtosis=5.212690982795767) >>> scipy.stats.describe(a, ddof=1, bias=False) # Default: axis=0 DescribeResult(nobs=5, minmax=(array([1, 1, 1]), array([16, 27, 4])), mean=array([6.2, 8.2, 1.8]), variance=array([ 37.2, 121.2, 1.7]), skewness=array([1.32531471, 1.79809454, 1.71439233]), kurtosis=array([1.30376344, 3.14969121, 2.66435986])) >>> scipy.stats.describe(a, axis=1, ddof=1, bias=False) DescribeResult(nobs=3, minmax=(array([1, 1, 2, 4, 1]), array([ 1, 3, 9, 27, 16])), mean=array([ 1., 2., 5., 13., 6.]), variance=array([ 0., 1., 13., 151., 75.]), skewness=array([0. , 0. , 1.15206964, 1.52787436, 1.73205081]), kurtosis=array([-3. , -1.5, -1.5, -1.5, -1.5]))

      當(dāng)您提供 時axis=None,您將獲得所有數(shù)據(jù)的摘要。大多數(shù)結(jié)果是標量。如果設(shè)置axis=0或省略它,則返回值是每列的摘要。因此,大多數(shù)結(jié)果是項目數(shù)與列數(shù)相同的數(shù)組。如果設(shè)置axis=1,則describe()返回所有行的摘要。

      您可以使用點符號從摘要中獲取特定值:

      >>>

      >>> result = scipy.stats.describe(a, axis=1, ddof=1, bias=False) >>> result.mean array([ 1., 2., 5., 13., 6.])

      這就是您可以通過單個函數(shù)調(diào)用查看二維數(shù)組的統(tǒng)計摘要的方式。

      數(shù)據(jù)幀

      該類DataFrame是 Pandas 的基本數(shù)據(jù)類型之一。使用起來非常舒服,因為它有行和列的標簽。使用數(shù)組a并創(chuàng)建一個DataFrame:

      >>>

      >>> row_names = ['first', 'second', 'third', 'fourth', 'fifth'] >>> col_names = ['A', 'B', 'C'] >>> df = pd.DataFrame(a, index=row_names, columns=col_names) >>> df A B C first 1 1 1 second 2 3 1 third 4 9 2 fourth 8 27 4 fifth 16 1 1

      在實踐中,列的名稱很重要并且應(yīng)該是描述性的。行的名稱有時會自動指定為0、1等。您可以使用參數(shù) 明確指定它們index,但index如果您愿意,也可以隨意省略。

      DataFrame方法與方法非常相似Series,但行為不同。如果不帶參數(shù)調(diào)用 Python 統(tǒng)計方法,DataFrame則將返回每一列的結(jié)果:

      >>>

      >>> df.mean() A 6.2 B 8.2 C 1.8 dtype: float64 >>> df.var() A 37.2 B 121.2 C 1.7 dtype: float64

      你得到的是一個新Series的結(jié)果。在這種情況下,Series保存每列的均值和方差。如果你想要每一行的結(jié)果,那么只需指定參數(shù)axis=1:

      >>>

      >>> df.mean(axis=1) first 1.0 second 2.0 third 5.0 fourth 13.0 fifth 6.0 dtype: float64 >>> df.var(axis=1) first 0.0 second 1.0 third 13.0 fourth 151.0 fifth 75.0 dtype: float64

      結(jié)果是Series每行所需的數(shù)量。標簽'first'、'second'等指的是不同的行。

      您可以DataFrame像這樣隔離 a 的每一列:

      >>>

      >>> df['A'] first 1 second 2 third 4 fourth 8 fifth 16 Name: A, dtype: int64

      現(xiàn)在,您擁有對象'A'形式的列Series,您可以應(yīng)用適當(dāng)?shù)姆椒ǎ?/p>

      >>>

      >>> df['A'].mean() 6.2 >>> df['A'].var() 37.20000000000001

      這就是您如何獲取單個列的統(tǒng)計信息。

      有時,您可能希望將 aDataFrame用作 NumPy 數(shù)組并對其應(yīng)用一些函數(shù)。可以從DataFramewith.values或獲取所有數(shù)據(jù).to_numpy():

      >>>

      >>> df.values array([[ 1, 1, 1], [ 2, 3, 1], [ 4, 9, 2], [ 8, 27, 4], [16, 1, 1]]) >>> df.to_numpy() array([[ 1, 1, 1], [ 2, 3, 1], [ 4, 9, 2], [ 8, 27, 4], [16, 1, 1]])

      df.values并df.to_numpy()為您提供一個 NumPy 數(shù)組,其中包含DataFrame沒有行和列標簽的所有項目。請注意,這df.to_numpy()更靈活,因為您可以指定項目的數(shù)據(jù)類型以及是要使用現(xiàn)有數(shù)據(jù)還是復(fù)制它。

      像Series,DataFrame對象具有.describe()返回另一個DataFrame包含所有列的統(tǒng)計信息摘要的方法:

      >>>

      >>> df.describe() A B C count 5.00000 5.000000 5.00000 mean 6.20000 8.200000 1.80000 std 6.09918 11.009087 1.30384 min 1.00000 1.000000 1.00000 25% 2.00000 1.000000 1.00000 50% 4.00000 3.000000 1.00000 75% 8.00000 9.000000 2.00000 max 16.00000 27.000000 4.00000

      摘要包含以下結(jié)果:

      count:每列中的項目數(shù)

      mean:每列的平均值

      std:標準差

      minand?max:最小值和最大值

      25%,?50%, 和75%:百分位數(shù)

      如果您希望結(jié)果DataFrame對象包含其他百分位數(shù),則應(yīng)指定可選參數(shù)的值percentiles。

      您可以像這樣訪問摘要的每個項目:

      >>>

      >>> df.describe().at['mean', 'A'] 6.2 >>> df.describe().at['50%', 'B'] 3.0

      這就是您可以通過Series單個 Pandas 方法調(diào)用在一個對象中獲得描述性 Python 統(tǒng)計信息的方法。

      可視化數(shù)據(jù)

      除了計算平均值、中位數(shù)或方差等數(shù)值量外,您還可以使用視覺方法來呈現(xiàn)、描述和匯總數(shù)據(jù)。在本節(jié)中,您將學(xué)習(xí)如何使用以下圖表直觀地呈現(xiàn)您的數(shù)據(jù):

      箱線圖

      直方圖

      餅狀圖

      條形圖

      XY 圖

      熱圖

      matplotlib.pyplot是一個非常方便且廣泛使用的庫,盡管它不是唯一可用于此目的的 Python 庫。您可以像這樣導(dǎo)入它:

      >>>

      >>> import matplotlib.pyplot as plt >>> plt.style.use('ggplot')

      現(xiàn)在,您已matplotlib.pyplot導(dǎo)入并可以使用。第二個語句通過選擇顏色、線寬和其他樣式元素來設(shè)置繪圖的樣式。如果您對默認樣式設(shè)置感到滿意,您可以隨意省略這些設(shè)置。

      注意:本節(jié)側(cè)重于表示數(shù)據(jù)并將樣式設(shè)置保持在最低限度。您將在 中看到指向所用例程的官方文檔的鏈接matplotlib.pyplot,因此您可以探索在此處看不到的選項。

      您將使用偽隨機數(shù)來獲取要處理的數(shù)據(jù)。您不需要有關(guān)隨機數(shù)的知識就可以理解本節(jié)。您只需要一些任意數(shù)字,而偽隨機生成器是獲取它們的便捷工具。該模塊np.random生成偽隨機數(shù)數(shù)組:

      正態(tài)分布的數(shù)字是用 生成的np.random.randn()。

      均勻分布的整數(shù)是用 生成的np.random.randint()。

      NumPy 1.17 引入了另一個用于生成偽隨機數(shù)的模塊。要了解更多信息,請查看官方文檔。

      箱線圖

      的箱形圖是在視覺上表示給定的數(shù)據(jù)集的描述性統(tǒng)計的優(yōu)秀工具。它可以顯示極差、四分位距、中位數(shù)、眾數(shù)、異常值和所有四分位數(shù)。首先,創(chuàng)建一些數(shù)據(jù)以用箱線圖表示:

      >>>

      >>> np.random.seed(seed=0) >>> x = np.random.randn(1000) >>> y = np.random.randn(100) >>> z = np.random.randn(10)

      第一條語句使用 設(shè)置 NumPy 隨機數(shù)生成器的種子seed(),因此每次運行代碼時都可以獲得相同的結(jié)果。您不必設(shè)置種子,但如果您不指定此值,那么每次都會得到不同的結(jié)果。

      其他語句生成三個具有正態(tài)分布偽隨機數(shù)的 NumPy 數(shù)組。x指具有 1000 個項目的數(shù)組,y有 100 個,z包含 10 個項目。現(xiàn)在您有了要處理的數(shù)據(jù),您可以申請.boxplot()獲取箱線圖:

      fig, ax = plt.subplots() ax.boxplot((x, y, z), vert=False, showmeans=True, meanline=True, labels=('x', 'y', 'z'), patch_artist=True, medianprops={'linewidth': 2, 'color': 'purple'}, meanprops={'linewidth': 2, 'color': 'red'}) plt.show()

      參數(shù).boxplot()定義如下:

      x?是你的數(shù)據(jù)。

      vert時將繪圖方向設(shè)置為水平False。默認方向為垂直。

      showmeans顯示當(dāng) 時數(shù)據(jù)的平均值True。

      meanline當(dāng) 時將平均值表示為一條線True。默認表示是一個點。

      labels:你的數(shù)據(jù)標簽。

      patch_artist?決定如何繪制圖形。

      medianprops?表示代表中位數(shù)的線的屬性。

      meanprops?表示代表平均值的線或點的屬性。

      還有其他參數(shù),但它們的分析超出了本教程的范圍。

      上面的代碼產(chǎn)生這樣的圖像:

      您可以看到三個箱線圖。它們中的每對應(yīng)于單個的數(shù)據(jù)集(x,y,或z),并顯示如下:

      平均值是紅色虛線。

      中位數(shù)是紫色線。

      第一個四分位數(shù)是藍色矩形的左邊緣。

      第三個四分位數(shù)是藍色矩形的右邊緣。

      四分位距是藍色矩形的長度。

      該范圍包含從左到右的所有內(nèi)容。

      異常值是左側(cè)和右側(cè)的點。

      箱線圖可以在一個圖中顯示如此多的信息!

      直方圖

      當(dāng)數(shù)據(jù)集中存在大量唯一值時,直方圖特別有用。直方圖將排序數(shù)據(jù)集中的值劃分為多個區(qū)間,也稱為bins。通常,所有 bin 的寬度都相等,但并非必須如此。bin 的下限和上限的值稱為bin 邊緣。

      的頻率是對應(yīng)于每個區(qū)間的單個值。它是數(shù)據(jù)集的元素數(shù),其值位于 bin 的邊緣之間。按照慣例,除了最右邊的一個之外,所有垃圾箱都是半開的。它們包括等于下限的值,但不包括等于上限的值。最右邊的 bin 是關(guān)閉的,因為它包括兩個邊界。如果用 bin 邊 0、5、10 和 15 劃分數(shù)據(jù)集,則有三個 bin:

      第一個和最左邊的 bin包含大于或等于 0 且小于 5 的值。

      第二個 bin包含大于或等于 5 且小于 10 的值。

      第三個也是最右邊的 bin包含大于或等于 10 且小于或等于 15 的值。

      該函數(shù)np.histogram()是獲取直方圖數(shù)據(jù)的便捷方法:

      >>>

      >>> hist, bin_edges = np.histogram(x, bins=10) >>> hist array([ 9, 20, 70, 146, 217, 239, 160, 86, 38, 15]) >>> bin_edges array([-3.04614305, -2.46559324, -1.88504342, -1.3044936 , -0.72394379, -0.14339397, 0.43715585, 1.01770566, 1.59825548, 2.1788053 , 2.75935511])

      它接受包含您的數(shù)據(jù)的數(shù)組和 bin 的數(shù)量(或邊緣)并返回兩個 NumPy 數(shù)組:

      hist?包含對應(yīng)于每個 bin 的項目的頻率或數(shù)量。

      bin_edges?包含 bin 的邊緣或邊界。

      什么histogram()計算,.hist()可以顯示圖形:

      fig, ax = plt.subplots() ax.hist(x, bin_edges, cumulative=False) ax.set_xlabel('x') ax.set_ylabel('Frequency') plt.show()

      的第一個參數(shù).hist()是數(shù)據(jù)的序列。第二個參數(shù)定義 bin 的邊緣。第三個禁用使用累積值創(chuàng)建直方圖的選項。上面的代碼產(chǎn)生了這樣的圖:

      您可以在水平軸上看到 bin 邊緣,在垂直軸上看到頻率。

      這是可能獲得與您提供的參數(shù)的數(shù)據(jù)項的累積數(shù)量的直方圖cumulative=True來.hist():

      fig, ax = plt.subplots() ax.hist(x, bin_edges, cumulative=True) ax.set_xlabel('x') ax.set_ylabel('Frequency') plt.show()

      此代碼產(chǎn)生下圖:

      它顯示帶有累積值的直方圖。第一個和最左邊的 bin 的頻率是這個 bin 中的項目數(shù)。第二個 bin 的頻率是第一個和第二個 bin 中項目數(shù)的總和。其他 bin 遵循相同的模式。最后,最后一個和最右邊的 bin 的頻率是數(shù)據(jù)集中的項目總數(shù)(在本例中為 1000)。您也可以在后臺pd.Series.hist()使用 using直接繪制直方圖matplotlib。

      餅狀圖

      餅圖表示帶有少量標簽和給定相對頻率的數(shù)據(jù)。即使使用無法排序的標簽(如標稱數(shù)據(jù)),它們也能很好地工作。餅圖是一個分成多個切片的圓。每個切片對應(yīng)于數(shù)據(jù)集中的單個不同標簽,并且其面積與與該標簽相關(guān)聯(lián)的相對頻率成正比。

      讓我們定義與三個標簽關(guān)聯(lián)的數(shù)據(jù):

      >>>

      >>> x, y, z = 128, 256, 1024

      現(xiàn)在,創(chuàng)建一個餅圖.pie():

      fig, ax = plt.subplots() ax.pie((x, y, z), labels=('x', 'y', 'z'), autopct='%1.1f%%') plt.show()

      的第一個參數(shù).pie()是您的數(shù)據(jù),第二個參數(shù)是相應(yīng)標簽的序列。autopct定義圖中顯示的相對頻率的格式。你會得到一個看起來像這樣的圖:

      餅圖顯示x為圓圈的最小部分,第二大部分y,然后z是最大部分。百分比表示每個值與其總和相比的相對大小。

      條形圖

      條形圖還說明與給定標簽或離散數(shù)值對應(yīng)的數(shù)據(jù)。他們可以顯示來自兩個數(shù)據(jù)集的數(shù)據(jù)對。一組的項目是標簽,而另一組的相應(yīng)項目是它們的頻率。或者,他們也可以顯示與頻率相關(guān)的錯誤。

      條形圖顯示稱為條形的平行矩形。每個條形對應(yīng)一個標簽,其高度與其標簽的頻率或相對頻率成正比。讓我們生成三個數(shù)據(jù)集,每個數(shù)據(jù)集有 21 個項目:

      >>>

      >>> x = np.arange(21) >>> y = np.random.randint(21, size=21) >>> err = np.random.randn(21)

      您可以使用np.arange()來獲得x,或連續(xù)整數(shù)從陣列0到20。您將使用它來表示標簽。y是均勻分布的隨機整數(shù)數(shù)組,也在0和之間20。這個數(shù)組將代表頻率。err包含正態(tài)分布的浮點數(shù),這是錯誤。這些值是可選的。

      .bar()如果您想要垂直條或.barh()如果您想要水平條,您可以創(chuàng)建一個條形圖:

      fig, ax = plt.subplots()) ax.bar(x, y, yerr=err) ax.set_xlabel('x') ax.set_ylabel('y') plt.show()

      此代碼應(yīng)生成下圖:

      紅條的高度對應(yīng)于頻率y,而黑線的長度表示誤差err。如果你不希望包括錯誤,則省略該參數(shù)yerr的.bar()。

      XY 圖

      的XY坐標圖或散點圖表示數(shù)據(jù)來自兩個數(shù)據(jù)集的對。水平 x 軸顯示集合中的值x,而垂直 y 軸顯示集合中的相應(yīng)值y。您可以選擇包含回歸線和相關(guān)系數(shù)。讓我們生成兩個數(shù)據(jù)集并執(zhí)行線性回歸scipy.stats.linregress():

      >>>

      >>> x = np.arange(21) >>> y = 5 + 2 * x + 2 * np.random.randn(21) >>> slope, intercept, r, *__ = scipy.stats.linregress(x, y) >>> line = f'Regression line: y={intercept:.2f}+{slope:.2f}x, r={r:.2f}'

      數(shù)據(jù)集x再次是具有從 0 到 20 的整數(shù)的數(shù)組。y計算為x帶有一些隨機噪聲的失真的線性函數(shù)。

      linregress返回幾個值。您將需要回歸線的slope和intercept以及相關(guān)系數(shù)r。然后你可以申請.plot()得到xy圖:

      fig, ax = plt.subplots() ax.plot(x, y, linewidth=0, marker='s', label='Data points') ax.plot(x, intercept + slope * x, label=line) ax.set_xlabel('x') ax.set_ylabel('y') ax.legend(facecolor='white') plt.show()

      上面代碼的結(jié)果是這個圖:

      您可以看到數(shù)據(jù)點(xy 對)為紅色方塊,以及藍色回歸線。

      熱圖

      甲熱圖可用于直觀顯示的矩陣。顏色代表矩陣的數(shù)字或元素。熱圖對于說明協(xié)方差和相關(guān)矩陣特別有用。您可以為協(xié)方差矩陣創(chuàng)建熱圖.imshow():

      matrix = np.cov(x, y).round(decimals=2) fig, ax = plt.subplots() ax.imshow(matrix) ax.grid(False) ax.xaxis.set(ticks=(0, 1), ticklabels=('x', 'y')) ax.yaxis.set(ticks=(0, 1), ticklabels=('x', 'y')) ax.set_ylim(1.5, -0.5) for i in range(2): for j in range(2): ax.text(j, i, matrix[i, j], ha='center', va='center', color='w') plt.show()

      在這里,熱圖包含了標簽'x',并'y'從協(xié)方差矩陣以及數(shù)字。你會得到這樣的圖:

      黃色字段代表矩陣中最大的元素130.34,而紫色字段對應(yīng)于最小的元素38.5。中間的藍色方塊與值相關(guān)聯(lián)69.9。

      您可以按照相同的邏輯獲取相關(guān)系數(shù)矩陣的熱圖:

      matrix = np.corrcoef(x, y).round(decimals=2) fig, ax = plt.subplots() ax.imshow(matrix) ax.grid(False) ax.xaxis.set(ticks=(0, 1), ticklabels=('x', 'y')) ax.yaxis.set(ticks=(0, 1), ticklabels=('x', 'y')) ax.set_ylim(1.5, -0.5) for i in range(2): for j in range(2): ax.text(j, i, matrix[i, j], ha='center', va='center', color='w') plt.show()

      結(jié)果如下圖:

      黃色表示值1.0,紫色表示0.99。

      結(jié)論

      您現(xiàn)在知道描述和匯總數(shù)據(jù)集的數(shù)量以及如何在 Python 中計算它們。使用純 Python 代碼可以獲得描述性統(tǒng)計數(shù)據(jù),但這很少是必要的。通常,您會使用一些專門為此目的創(chuàng)建的庫:

      將 Pythonstatistics用于最重要的 Python 統(tǒng)計函數(shù)。

      使用 NumPy高效處理數(shù)組。

      將 SciPy用于 NumPy 數(shù)組的其他 Python 統(tǒng)計例程。

      使用 Pandas處理標記數(shù)據(jù)集。

      使用 Matplotlib通過繪圖、圖表和直方圖可視化數(shù)據(jù)。

      在大數(shù)據(jù)和人工智能時代,您必須知道如何計算描述性統(tǒng)計量度。現(xiàn)在您已準備好深入了解數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的世界!如果您有任何問題或意見,請將它們放在下面的評論部分。

      Python 數(shù)據(jù)結(jié)構(gòu)

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:【Java從入門到頭禿專欄 8】語法篇(七) :反射 動態(tài)代理 注解
      下一篇:萬兆線速ddos攻擊測試工具pktgen-dpdk
      相關(guān)文章
      亚洲精品成人网站在线观看 | 精品国产亚洲一区二区在线观看| 亚洲午夜成激人情在线影院| 亚洲AV日韩AV永久无码免下载 | 亚洲人成网男女大片在线播放| 亚洲毛片一级带毛片基地| 亚洲人成在线影院| 亚洲天堂在线播放| 亚洲国产成人久久精品动漫| 亚洲2022国产成人精品无码区| 亚洲第一视频网站| 亚洲黄色在线观看网站| 亚洲视频在线观看不卡| 亚洲天堂福利视频| 国产91在线|亚洲| 亚洲欧美黑人猛交群| 含羞草国产亚洲精品岁国产精品 | 亚洲AV无码国产精品永久一区| 国产亚洲欧美日韩亚洲中文色| 精品亚洲福利一区二区| 亚洲国产成人久久综合碰| 亚洲日韩中文字幕日韩在线| 国产亚洲人成A在线V网站| 国产亚洲色婷婷久久99精品| 久久精品亚洲综合| 亚洲美女视频一区二区三区| 亚洲中文久久精品无码1| 亚洲熟女精品中文字幕| 久久久久亚洲国产AV麻豆| 亚洲人成影院在线观看| 亚洲人色婷婷成人网站在线观看| 亚洲AV无码乱码国产麻豆| 亚洲男女性高爱潮网站| 在线观看亚洲AV日韩AV| 朝桐光亚洲专区在线中文字幕| 亚洲国产成人久久一区WWW| 久久亚洲综合色一区二区三区| 99人中文字幕亚洲区| 亚洲三级高清免费| 国产亚洲成在线播放va| 亚洲精品无码av人在线观看|