量化入門
量化入門
量化交易(Quantitative Trading)
引言
近年來,量化投資行業得到了迅速的發展,傳統多因子模型在A股過去若干年內也獲得較為穩健的超額收益。然而,由于市值效應在 A 股市場的影響過于明顯,導致傳統多因子模型或多或少都受其影響。 尤其是自2016年11月以來,隨著A股市場風格的急劇變化,策略穩定性受到了一定沖擊。從目前市值因子的收益波動性而言,小市值因子超額收益的黃金時代可能已經過去。2017年券商研報構建了交易型阿爾法選股體系,旨在挖掘短期盈利機會,對原有傳統阿爾法選股體系形成極大補充。人工智能阿爾法選股體系簡稱AI阿爾法體系,是利用人工智能領域中的機器學習技術,將挖掘因子收益的潛力發揮極致。
1. 量化交易
量化交易是運用復雜的統計學方法和數學模型,從龐大的歷史數據中海選出能帶來超額收益的多種“大概率”事件以找出規律、制定策略,并且能用數據模型驗證、固化這些規律和策略,然后用計算機來嚴格、高效地執行。這樣可以極大的減少投資者情緒波動造成的影響,有效避免了在市場極度狂熱或悲觀的情況下做出非理性的投資決策。
1.1主觀交易
主觀交易運用主觀交易的投資者需要關注國際環境及財經新聞、券商的研究報告、公司的財務報告、K線趨勢、個股新聞、價量經驗、大人物的演講、朋友圈情緒、甚至一些小道消息,并對其進行定性或者定量分析。定性分析可以是體驗公司產品或者直接實地考察,定量分析則可根據自己的選股原則,用各種指標進行打分,加權匯總后,買入分數高的股票,賣出分數低的股票,以形成交易信號。主觀交易具有較強的主觀能動性,即在同樣的選股原則和止贏止損策略下,100個人會有100種不同的結果,基于大數定律和正態分布,可以發現有一小撮人的資金曲線非常平滑和漂亮,但是絕大部分人都會低于均線水平,這里的“均線”指的是計算機嚴格執行交易策略所得到的資金曲線,原因往往是理性總是被情緒打敗的。
1.2量化交易
量化交易不僅關注歷史行情數據、基本面指標數據,而且會把一些非傳統的數據,如市場情緒、財經新聞的關鍵字轉化成機器可以理解的指標。數據越原始越好,例如可以直接購買交易所最原始的、未經清洗的行情數據。
有了數據之后,就需要運用數學和統計學的方法,如單位根檢驗、線性回歸、機器學習等方法從大數據當中找到超額收益的多種“大概率”事件,比如選股的量化思想就是進行收益拆解,從很多維度進行數量化的判斷。量化交易的一大優點就是計算機的高效執行將人從簡單重復的任務中解脫出來,可以把更多精力放在更好策略的開發上。另外,量化交易可以從更快速和更微觀的維度去思考問題,人受限于人體的生理機構,從看到數據、大腦判斷到手指敲在鍵盤的反應時間是幾百毫秒,而計算機執行是可以達到納秒級別的,因此在超高速領域,量化交易可以賺取主觀交易無法賺到的錢。
2. 傳統量化選股
在介紹AI阿爾法體系之前,我們有必要對阿爾法體系的發展及基本理論進行梳理。
2.1單因子選股
初期的量化選股其實是很直觀的,最簡單的為單因子選股,例如投資者用PE因子選股,步驟是:
(1)選擇使用哪一個指標(因子),例如使用靜態PE來選擇股票,PE越低則打分越高。PE在一定條件下可能是負數,為了單調性,我們使用PE的倒數EP, EP越高,則該項得分越高,這樣即使PE為負數,也是有經濟意義的。
(2)選擇要進行回測的時間和每次回測間隔的時間。
(3)選擇在哪一個股票池里選股,這個股票池可以是上市的所有A股,也可以是某個指數,例如滬深300或者中證500成分股。
(4) 每只股票給予的權重,比如選滬深300股票池有30只股票每只股票的權重就是3.33%
(5)在每個時間節點,利用成分股每個因子值的大小進行排序。選擇排名靠前的10%的股票,取其下個月的收益平均值作為當月回測結果。然后滾動起來,回測時間段內每個月進行這樣的測算。最后把每個月的收益進行滾乘,得到回測區間的總收益。
2.2多因子選股
多因子模型是比單因子模型更加有力的一個選股手段。試想一下用PE選股的本質意義是選擇低市盈率的股票,可是有時會希望選擇低市盈率、近期跌得多的股票,或者低市盈率、跌得多、有很好的毛利率的股票,或者低市盈率、跌得多、有很好的毛利率的股票把選股的邏輯要素越拓越廣,就形成了多因子模型。
多因子模型的選股方法:
方法1:在因子數不多的情況下,先用第一個因子,篩選出一個股票池;再用第二個因子,再次篩選;然后用第三個因子,因此類推。這種方法適用于因子數不多,而且原始股票池足夠大的情況。
方法2:利用因子打分的方法,先對股票的每個因子進行打分,再把多個因子的分數加起來,最終得分就是股票的多因子分數。例如某股票的EP因子分數為0.5,動量因子分數為0.7,兩個因子的權重分別為50%、50%(因子權重總和必須為1),那么最終因子得分為:0.5×50%+0.7×50%=0.6
如何選擇多因子是關鍵,問題在于選擇什么樣的因子,賦予多少權重。在這種選股模型下,并不是選股因子越多越好,尤其是同一個大類下的因子,太多容易產生很強的相關性。例如PE和PB,通常情況下PE低的,也是PB低的,所以同時給PE和PB因子權重,就類似于把這兩個因子的權重加起來。下面列出了一些比較常用的因子
對于多因子模型來評價指標:
(1)因子收益率檢驗,具體的檢驗方法是統計回測近一年、近三年、近五年或更久的時間段里,各組收益率均值、標準差、勝率等指標,其中勝率指該組戰勝基準收益率的概率。
(2)因子顯著性檢驗,具體指標有:超額均值——各組收益率相對基準的超額收益率的均值,均值越大,說明該組超越基準越明顯。跟蹤誤差——超額收益率的標準差,衡量各組偏離基準的程度,越小越好。信息比率——風險收益率指標,超額收益率均值÷超額收益率標準差,結果越大,說明超越基準越明顯。
(3)因子延續性檢驗:由因子得到的分組能否在較長的一段時間保持比較好的方向性,即本期表現好的因子,下期是否也能取得好的收益率。
延續性檢驗里的重要考查指標是IC:
I
C
=
E
(
[
X
?
E
(
X
)
]
[
Y
?
E
(
Y
)
]
)
1
n
∑
i
=
1
n
(
X
i
?
E
(
X
i
)
)
2
1
n
∑
i
=
1
n
(
Y
i
?
E
(
Y
i
)
)
2
IC = \frac{E([X-E(X)][Y-E(Y)])}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}(X_i-E(X_i))^2}\sqrt{\frac{1}{n}\sum_{i=1}^{n}(Y_i-E(Y_i))^2}}
IC=n1 ∑i=1n (Xi ?E(Xi ))2
n1 ∑i=1n (Yi ?E(Yi ))2
E([X?E(X)][Y?E(Y)])
這個公式的含義是,t期末各股票的綜合因子分數為序列X, t期到t+1期各股票的漲幅序列為序列Y,然后計算序列X和序列Y的相關系數。E(X)為序列X的平均值。通過各期的IC值可以大致看出因子的延續性,在哪一段是正向的,哪一段是反向的。
3. 基本概念
3.1 收益率等概念
3.1.1收益率
假設
p
t
p_t
pt 在時刻
t
t
t時的一種資產價格,在沒有利息的情況下,從時刻
t
?
1
t-1
t?1時刻
t
t
t這一持有階段的收益率為
I
C
=
P
t
?
P
t
?
1
P
t
?
1
IC = \frac{P_t-P_{t-1}}{P_{t-1}}
IC=Pt?1 Pt ?Pt?1
其中分子
P
t
?
P
t
?
1
P_t-P_{t-1}
Pt ?Pt?1 示資產在持有期內的收入或者利潤,如果該值為負則表示虧損。
分母
P
t
?
1
P_{t-1}
Pt?1 表示持有資產初期的原始投資
3.1.2對數收益率
對數收益率,用
r
t
r_t
rt 表示,
r
t
r_t
rt 的定義表示如下:
r
t
=
ln
?
P
t
P
t
?
1
=
ln
?
(
1
+
R
t
)
r_t=\ln {\frac{P_t}{P_{t-1}}}=\ln{(1+R_{t})}
rt =lnPt?1 Pt =ln(1+Rt )
其中
ln
?
(
x
)
\ln(x)
ln(x)是自然對數就是以
e
e
e為底的對數。對數收益率比簡單的收益率更為常見。
原因:
1)當
x
x
x比較小的時候比如小于10%,
ln
?
(
x
)
\ln(x)
ln(x)和
x
x
x 的值是比較接近的。
2)使用對數收益率,可以簡化多階段收益,比如有
K
K
K段的對數收益,總的對數收益就是
K
K
K階段的對數收益相加。
3)講對數收益率繪制成圖表時,直觀上更接近真實的表現。
3.1.3夏普比率
衡量基金收益的一個有名的標準就是夏普比率(Sharpe ratio)。有投資常識的人都明白,投資光看收益是不夠的,還要看承受的風險,也就是收益風險比。夏普比率描述的正是這個概念,即每承受一單位的總風險,會產生多少超額的報酬。用數學公式描述就是:
S
h
a
r
p
e
r
R
a
t
i
o
=
E
(
R
p
)
?
R
f
σ
p
SharperRatio=\frac{E(R_p)-R_f}{\sigma_{p}}
SharperRatio=σp E(Rp )?Rf
其中,
E
(
R
p
)
E(R_p)
E(Rp ) :投資組合預期收益率
R
f
R_f
Rf :無風險利率
σ
p
\sigma_{p}
σp :投資組合的波動率(亦即投資組合的風險)
3.1.4最大回撤率
最大回撤率:在選定周期內任一歷史時點往后推,產品凈值走到最低點時的收益率回撤幅度的最大值。最大回撤用來描述描述任一投資者可能面臨的的最大虧損。最大回撤是一個重要的風險指標,對于對沖基金和數量化策略交易,該指標比波動率還重要。
公式可以這樣表達:
D
D
D為某一天的凈值,
i
i
i為某一天,
j
j
j為
i
i
i后的某一天,
D
i
D_i
Di 為第
i
i
i天的產品凈值,
D
j
D_j
Dj 則是
D
i
D_i
Di 后面某一天的凈值。
d
r
a
w
d
o
w
n
=
m
a
x
(
D
i
?
D
j
)
D
i
drawdown=\frac{max(D_i-D_j)}{D_i}
drawdown=Di max(Di ?Dj )
其實就是對每一個凈值進行回撤率求值,然后找出最大的。
3.1.5 sortino ratio(索提諾比率)
定義:
其中MAR是Minimum Acceptable Return,可接受最低收益;是收益中小于無風險收益的全部樣本。該比率是計算投資組合每承受一單位低于無風險收益的風險,能夠產生多少超額報酬,分母 用MAR代替理論上是可以的,因為
R
f
R_f
Rf 是MAR的特殊情況。但是MAR可以和
R
f
R_f
Rf 不一致。
索提諾比率(Sortino Ratio,SR),與夏普比率類似,所不同的是它區分了波動的好壞,因此在計算波動率時它所采用的不是標準差,而是下行標準差。這其中的隱含條件是投資組合的上漲(正回報率)符合投資人的需求,不應該計入風險調整。和夏普比率類似,這個比率越高,表明基金承擔相同單位下行風險能獲得更高的超額回報率。索提諾比率可以看做是夏普比率在衡量對沖基金/私募基金是的一種修正方式。
3.1.6 信息比率Information Ratio
信息比率是用來衡量單位超額風險帶來的超額收益,信息比率越大,說明該策略單位跟蹤誤差所獲得的超額收益越高,因此信息比率大的策略比低的好,合理的投資目標應該是在承擔適當風險的前提下,盡可能的追求高信息比率。
信息比率公式:
R
p
R_p
Rp 表示策略年化收益率
R
m
R_m
Rm 表示基準年化收益率
σ
t
\sigma_t
σt 表示策略與基準每日收益差值的年化標準差也被稱為主動風險
我們在選擇基金的時候,既要看收益,也要看風險,最理想的就是收益大風險小。信息比率就是衡量收益和風險的關系。一般來說,選擇信息比率較高的基金,就意味著選擇了同樣主動風險水平下更高獲取超額收益能力,或者是說選擇同樣超額收益下更小主動風險。因此,信息比率較大的基金的表現要優于信息比率較低的基金。
3.1.7策略波動率Volatility
策略波動率用來測量策略的風險性,策略波動率越大代表策略風險越高。
Volatility的計算公式:
r
p
r_p
rp 表示策略每日收益率
r
ˉ
p
\bar{r}{_p}
rˉp 表示策略每日收益率的平均值
n
n
n 表示策略執行天數
3.1.8基準波動率Benchmark Volatility
基準波動率用來測量策略基準的風險性,基準波動率越大代表基準風險越高。
基準波動率的計算公式:
r
m
r_m
rm 表示基準每日收益率
r
ˉ
m
\bar{r}{_m}
rˉm 表示基準每日收益率的平均值
n
n
n表示基準執行天數
3.2 CAPM資本資產定價模型
CAPM的中文是“資本資產定價模型”,多用于對股票的定價。即CAPM用來回答這個問題:對于某只股票,你(投資者)認為它價值幾何?而非現實中的價格。例如,一支網紅冰淇淋售價100元,但你認為這支冰淇淋只值5元。這5元就是你作為投資者綜合各方面因素給冰淇淋的定價。股票也如同普通商品一樣。
E
(
r
D
)
E_(rD)
E( rD):股票的期望回報率
r
f
r_f
rf :無風險回報率
β
D
\beta_D
βD :該股票的貝塔值
E
(
r
M
)
E_(rM)
E( rM):市場所有股票的平均回報率
那貝塔值的意義是什么呢?貝塔值是用來衡量個別投資工具與市場的波動情況。就是說這只股票的波動性,用波動性看風險。如果貝塔值是1呢,就是說大盤漲多少,這只股票就漲多少,是完全一致的。如果貝塔值大于1呢,就是說這只股票的波動是大于市場平均值的。如果貝塔值小于1則意味著這只股票波動小于市場平均值。要知道,在金融學里如何衡量一只股票的風險就是利用波動性。波動性為什么被用來作為衡量風險的標志之一呢?假設啊,假設有一只股票,每天不是跌停,就是漲停,而大盤很正常。這樣的股票波動性很大,風險是不是也很大?貝塔值呢,就是這樣一個用來衡量某只特定股票風險的指數。作為一個投資者,首先,要保證我們投資的股票回報率一定一定是大于定期的。其次,股票市場整體也要比無風險利率高。最后怎樣體現我選的這只股票的風險呢?用貝塔值。這樣用貝塔值乘以市場的期望回報率,再加上無風險利率,就能得到我想要的這只股票的期望回報率啦。
3.2.1阿爾法Alpha(詹森指數)
投資面臨系統系風險(Beta)和非系統性風險(Alpha)Alpha是投資者獲得的與市場波動無關的回報,比如投資者獲得了15%的回報,其基準(例如滬深300)獲得了10%的回報,那么alpha增值的部分就是5%
Alpha的計算公式:
R
p
R_p
Rp 表示策略年化收益率
R
m
R_m
Rm 表示基準年化收益率,也就是市場所有股票的平均回報率
R
f
R_f
Rf 表示無風險利率(默認0.04)
β
p
\beta_p
βp 表示策略Bata值
無風險收益率:(資金的時間價值+通貨膨脹補償率)美國的慣例是,用一年期的國債利率作為無風險利率;中國學者常用的有短期國債收益率,國債回購收益率等
3.2.2貝塔beta
Beta表示投資的系統風險,反映了策略對大盤變化的敏感性,例如一個策略的Beta值為1.5,則大盤漲1%的時候,策略可能漲1.5%,反之 如果一個策略的Beta值為-1.5,則大盤漲1%的時候,策略可能漲-1.5%
Beta的計算公式:
D
p
D_p
Dp 表示策略每日收益
D
m
D_m
Dm 表示基準每日收益
C
o
v
(
D
p
,
D
m
)
Cov(D_p, D_m)
Cov(Dp ,Dm )表示策略每日收益與基準每日收益的協方差
V
a
r
(
D
m
)
Var(D_m)
Var(Dm )表示基準每日收益的方差
舉例:
1.如果指數可以交易,你買入價值100萬的滬深300指數并一直持有,這是一個beta策略,因為你賺到的是市場波動產生的收益。
2.你花了100萬買入20只股票,這些股票表現不俗,比策略1多賺20%,那么這20%是alpha收益。這20只股票的收益來自市場收益(beta)+超額收益(alpha)。這是一個通俗意義上的“指數增強型策略”。
3.在策略2的基礎上,假設你買入的20只股票平均波動性與滬深300指數的波動性一致(持倉股票相對指數的beta=1),你又做空了價值100萬的滬深300期貨,相當于(策略2-策略1),得到的就是(beta+alpha-beta)=alpha。這是一個“完全”對沖的alpha策略
3.3 除權不復權,前復權和后復權
除權:假設某公司的總股本100股,每股10元,總權益就是1000元。當公司進行送股,每10股轉送10股,總股本就變成了200股,而公司的總權益并沒有變,于是每股價格就要變成1000/200=5元。這就是除權。
復權 當股價因送股、配股等原因而發生下跌時,原來10元/股的股票瞬間變成了5元/股,但該股票實際價值并沒有發生變化,也就是說現在的5元實際上還是相當于10元。這就是復權。
那么不復權,前復權和后復權有什么區別呢?
不復權當股價因送股等原因發生變化,在K線走勢圖上就有可能形成斷崖式的下跌,比如從10元/股變為5元/股,當日的漲跌幅就變成-50%而實際上該股票的價值并沒有發生重大變化,而當這個價格變化反應到技術指標上時,就可能影響到指標的準確性,影響到部分投資者的判斷。
杉杉股份(600884)2016.06.20 不復權時的K線圖
而復權又分為前復權和后復權。前復權:以除權后第一天的價格點為基礎把除權以前的數據進行復權。假設10元/股因除權等原因變為了5元/股,并且除此之外,當天股價沒有其他漲跌幅的變化,那進行前復權以后,K線圖顯示的就是,當天與前一天的股價都是5元,之前的股價也都一律按比例縮小,變為一條連續的曲線。
杉杉股份(600884)2016.06.20 前復權時的K線圖
后復權:以除權前最后一天的價格點為基礎把除權后的數據進行復權。
假設10元/股因除權等原因變為了5元/股,并且除此之外,當天股價沒有其他漲跌幅的變化,那進行后復權以后,K線圖顯示的就是,當天與前一天的股價都是10元,之后的股價也都一律按比例放大,變為一條連續的曲線。
杉杉股份(600884)2016.06.20后復權時的K線圖
這三種復權處理沒有絕對的好壞,各有用處。比如說前復權可以以現在價格倒推看以前的價格成本,看對應目前價格的歷史價格的真實成本。后復權可以看出沒有除權的情況下,股價水平高到什么程度。再比如說在中短線操作時,需要研究K線圖,或者是MACD等指標的走勢,此時用前復權會比較合適。而在長線操作時,不復權的處理能看出每波價格的低點,歷史價格具有極強的參考意義。
4. 量化
4.1因子
4.1.1 MA
Moving Average,移動平均線。
連續多個周期的價格(比如收盤價)的算術平均值。
MA是最基礎的移動平均線,又稱為SMA(簡單移動平均線)。幾經發展,移動平均線也有多種變體。
4.1.2 WMA
Weighted Moving Average,加權移動平均線。
SMA是以等權重計算的算術平均值,實際中認為越近期的價格,對現價影響越大,因此權重應該加大。 常見的加權方式有:
1)末日加權
2)線性加權
3)梯形加權
4)平方系數加權
4.1.3 EMA(EXPMA)
Exponential Moving Average,指數移動平均,又可簡寫未EXPMA
其中,
α
\alpha
α為平滑指數,一般取作
2
/
(
N
+
1
)
2/(N+1)
2/(N+1) ,典型的在計算MACD指標時,EMA計算中的
N
N
N一般選取12和26天,因此
α
\alpha
α相應為2/13和2/27。這里可以看到一個問題,如果是
E
M
A
(
0
)
EMA(0)
EMA(0) ,則存在 的取值問題,一般可以取值
E
M
A
(
0
)
=
P
r
i
c
e
(
0
)
EMA(0)=Price(0)
EMA(0)=Price(0).
在計算機遞推計算時,可以寫作:
將
E
M
A
y
e
s
t
e
r
d
a
y
EMA_{yesterday}
EMAyesterday 按照類似方法遞推展開,可以得到:
其中,p1表示今天價格,p2表示昨天價格,p3表示前天價格以此類推。對于N日的EMA,即EMA(N),其股價追溯到前3.45*(N+1)日的就可以了,更早的股價可以忽略。比如說EMA(12)追溯到前45日的股價就可以了,EMA(26)追隨到前94日的股價就可以了。根據驗證,如果想誤差更小,可以追溯到前5N日的股價。
將平滑系數α 展開,由于
可以得到:
從該式中可以更清楚地看出EMA加權平均的特性。在EMA指標中,每天價格的權重系數以指數等比形式縮小。時間越靠近當今時刻,它的權重越大,說明EMA函數對近期的價格加強了權重比,更能及時反映近期價格波動情況。所以EMA比MA更具參考價值
然后把日期t變一下從today=t開始編號最初始的那一天定為0
pandas中有接口可以計算EMA
4.1.4 DIF離差值
搞明白,其他指標就比較簡單了。
指標公式如下:
新股上市首日,其首日
D
I
F
DIF
DIF 為0 。從次日開始,全部都用當天的
E
M
A
(
12
)
?
E
M
A
(
26
)
EMA(12)-EMA(26)
EMA(12)?EMA(26)得到當天的 DIF注意,研究MACD指標要盡量采用股價前復權之后的數據來研究。
4.1.5 DEA
DEA通用公式:
D
E
A
y
e
s
t
e
r
d
a
y
DEA_{yesterday}
DEAyesterday 表示昨日的DEA,這個公式可以模仿普通EMA的展開式展開,這里不再詳述。
默認的DEA即DIF 線的9日指數平滑移動平均線,也可以表示為
M
E
A
(
D
I
F
,
9
)
MEA(DIF,9)
MEA(DIF,9)。
新股上市首日,其首日DEA為0。從次日開始,由于首日DEA為0,因此次日的
D
E
A
=
0.2
D
I
F
+
0
=
0.2
D
I
F
DEA=0.2DIF+0 = 0.2DIF
DEA=0.2DIF+0=0.2DIF 。后續日子的DEA可以套用$0.2DIF+0.8DEA_{yesterday} $計算
4.1.6 MACD
M
A
C
D
MACD
MACD指標也包括日
M
A
C
D
MACD
MACD周
M
A
C
D
MACD
MACD月
M
A
C
D
MACD
MACD 年
M
A
C
D
MACD
MACD 指標, 以及5分鐘、15分鐘、30分鐘、60分鐘等分時
M
A
C
D
MACD
MACD常被用于股市的是日
M
A
C
D
MACD
MACD 指標和周
M
A
C
D
MACD
MACD 指標
4.2圖概念
4.2.1盒圖
最近在擺弄數據離散度的時候遇到一種圖形,叫做盒圖(boxplot)。它對于顯示數據的離散的分布情況效果不錯。
盒圖是在1977年由美國的統計學家約翰·圖基(John Tukey)發明的。它由五個數值點組成:最小值(min),下四分位數(Q1),中位數(median),上四分位數(Q3),最大值(max)。也可以往盒圖里面加入平均值(mean)。如上圖。下四分位數、中位數、上四分位數組成一個“帶有隔間的盒子”。上四分位數到最大值之間建立一條延伸線,這個延伸線成為“胡須(whisker)”。
由于現實數據中總是存在各式各樣地“臟數據”,也成為“離群點”,于是為了不因這些少數的離群數據導致整體特征的偏移,將這些離群點單獨匯出,而盒圖中的胡須的兩級修改成最小觀測值與最大觀測值。這里有個經驗,就是最大(最小)觀測值設置為與四分位數值間距離為1.5個IQR(中間四分位數極差)。即
I
Q
R
=
Q
3
?
Q
1
IQR = Q3-Q1
IQR=Q3?Q1,即上四分位數與下四分位數之間的差,也就是盒子的長度。
最小觀測值為
m
i
n
=
Q
1
?
1.5
?
I
Q
R
min = Q1 - 1.5*IQR
min=Q1?1.5?IQR,如果存在離群點小于最小觀測值,則胡須下限為最小觀測值,離群點單獨以點匯出。如果沒有比最小觀測值小的數,則胡須下限為最小值。
最大觀測值為
m
a
x
=
Q
3
?
1.5
?
I
Q
R
max = Q3 -1.5*IQR
max=Q3?1.5?IQR,如果存在離群點大于最大觀測值,則胡須上限為最大觀測值,離群點單獨以點匯出。如果沒有比最大觀測值大的數,則胡須上限為最大值。
通過盒圖,在分析數據的時候,盒圖能夠有效地幫助我們識別數據的特征:
1) 直觀地識別數據集中的異常值(查看離群點)。
2) 判斷數據集的數據離散程度和偏向(觀察盒子的長度,上下隔間的形狀,以及胡須的長度)。
AI EI企業智能 EI創新孵化Lab 機器學習 運籌優化
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。