小編整理: 標準差(Standard Deviation)是一種描述數(shù)據(jù)的離散程度的統(tǒng)計量,表示數(shù)據(jù)集合中每個數(shù)值與數(shù)據(jù)集平均值的偏離程度,越大表示該數(shù)據(jù)集合整體的離散程度越大,越小表示數(shù)據(jù)集合整體的離散程度越小,19世紀末由
英國 統(tǒng)計學家卡爾·皮爾遜(Karl Pearson)首先提出,其算術平方根稱為標準差。
標準差 標準差正態(tài)函數(shù)
標準差(Standard Deviation)是一種描述數(shù)據(jù)的離散程度的統(tǒng)計量。 標準差表示數(shù)據(jù)集合中每個數(shù)值與數(shù)據(jù)集平均值的偏離程度,越大表示該數(shù)據(jù)集合整體的離散程度越大,越小表示數(shù)據(jù)集合整體的離散程度越小,19世紀末,由英國統(tǒng)計學家 卡爾·皮爾遜 (Karl Pearson)首先提出。
歷史 標準差是由英國統(tǒng)計學家卡爾·皮爾遜在19世紀末首先提出來的,當時,人們通過求解方差已經(jīng)可以很好地描述數(shù)據(jù)分布的離散程度,但是方差最后獲得的值是平方單位的,不利于人們對其進行直觀的理解和比較。而標準差的出現(xiàn),正是為了解決這個問題。 它是方差的平方根,具有良好的可解釋性和可比性,更容易被人們直觀地理解和應用。因此,到了 20世紀初,標準差很快被廣泛地應用于數(shù)據(jù)分析 、統(tǒng)計學、概率論以及各種相關領域。 標準差的出現(xiàn)和統(tǒng)計學的發(fā)展密不可分。在現(xiàn)代經(jīng)濟和科學技術領域中,數(shù)據(jù)量已經(jīng)變得非常龐大,要想對這些數(shù)據(jù)進行有意義的分析和應用,需要借助統(tǒng)計學的工具和方法。標準差作為一個重要的統(tǒng)計量,可以幫助 人們更好地描述數(shù)據(jù)分布的離散程度和數(shù)據(jù)點之間的差異性,對數(shù)據(jù)分析和決策具有重要的參考作用。
相關概念
方差 標準差是方差的正平方根,即有:
其中,s表示標準差,Var表示方差。方差和標準差存在一種簡單的互相轉化的關系,這種關系表示了數(shù)據(jù)分散程度的兩種不同表現(xiàn)方式,我們在實際應用中更常用標準差而不是方差,因為標準差具有與原始數(shù)據(jù)相同的物理單位,它更容易解釋和理解。
總體標準差 總體標準差是指總體數(shù)據(jù)分布中所有數(shù)據(jù)點與其平均值(或總體參數(shù))之間的差距的平均值的平方根。 與樣本標準差不同,總體標準差是基于整個總體的所有數(shù)據(jù)進行計算的,包括已知和未知的數(shù)據(jù)。如果我們有總體的全部數(shù)據(jù),我們可以用全樣本計算總體標準差,而如果我們只有一個樣本,就需要通過樣本標準差來估計總體標準差。
總體標準差是衡量總體數(shù)據(jù)分布的離散度的一種重要指標,在統(tǒng)計分析、財務分析、商業(yè)決策、品質控制以及市場調查等領域廣泛應用。例如,在市場調研中,研究人員可以使用總體標準差在整個市場中衡量某種產(chǎn)品或服務的消費者需求的波動程度,以制定 更好的市場營銷策略。在財務分析中,總體標準差可用于評估一家公司股票的波動程度和風險率,幫助投資者制定更好的投資策略。 其中, 是所有數(shù)據(jù)與總體參數(shù)(平均值)的差距的平方之和,N 是總體數(shù)據(jù)的數(shù)目。 總體標準差通常與樣本標準差一起使用。如果我們有總體的全部數(shù)據(jù),我們可以用總體標準差來描述數(shù)據(jù)的分布情況。如果我們只有一個樣本數(shù)據(jù),我們需要用樣本標準差來估計總體標準差。在數(shù)據(jù)分析和統(tǒng)計學中,總體標準差的準確度和估計誤差對于數(shù)據(jù)分析和結論推斷具有很重要的影響。
樣本標準差和總體標準差的區(qū)別在于它們基于不同的樣本或總體。樣本標準差是基于樣本數(shù)據(jù)計算的標準差,而總體標準差是基于總體數(shù)據(jù)計算的標準差。
在統(tǒng)計中,由于總體標準差很難計算,通常使用樣本標準差來估計總體標準差。這個過程是基于 大數(shù)定律 的原理,即隨著樣本量的增加,樣本標準差越來越接近總體標準差。 一般來說,樣本標準差可以代替總體標準差進行推斷和分析,但需要滿足一定的前提條件,如總體必須符合正態(tài)分布、樣本容量要足夠大等。在使用樣本標準差代替總體標準差時,需要注意樣本量的選擇 和樣本的代表性,以確保估計的準確性。
單次測量標準差 單次測量標準差是一種用于衡量單次測量誤差的統(tǒng)計量。它評估單次測量的變異性,而不考慮多次測量的變異性。單次測量標準差越小,表示單次測量的精度越高。
在實際測量中,很難避免存在誤差。單次測量標準差可以用來衡量一個測量值與其平均值的差異,以評估測量結果的精度和準確性。較小的單次測量標準差表明單次測量誤差較小,結果較準確。
單次測量標準差的計算公式如下:
其中,s是單次測量標準差, 是第i次的測量值,x是測量值的平均值,n是測量次數(shù)。
均方根誤差 均方根誤差是統(tǒng)計學中用于衡量預測值與實際值之間誤差的一個指標,也是模型擬合度和預測準確性的一種度量。它是所有誤差的平方平均值(MSE)的平方根。
均方根誤差經(jīng)常被用來比較不同模型預測結果的準確程度,以選擇最好的預測模型。均方根誤差越小,表明預測模型的擬合度越好,預測結果越準確。
均方根誤差的計算公式如下:
其中, 是實際值, 是預測值, 是數(shù)據(jù)總數(shù)。
均方差 均方差是指樣本數(shù)據(jù)集中 每個數(shù)據(jù)點與真實值的誤差平方的平均數(shù)。均方差通常用于評估預測模型的精度和準確性,也可在回歸問題中用作損失函數(shù)。 均方差的公式如下:
其中,n是樣本數(shù)量, 是樣本中第 i個數(shù)據(jù)點的真實值, 是使用模型預測的第i個數(shù)據(jù)點的值。 MSE 值越小,表示模型的預測結果越接近真實值,表示模型的精度和準確性越高。相反,MSE 值越大,則意味著模型的預測結果與真實值之間的誤差越大。
標準誤差 是某一統(tǒng)計量(如樣本均值、樣本均值之差、樣本比例、相關系數(shù)等)抽樣分布的標準。標準誤差用于衡量樣本統(tǒng)計量的離散程度,在參數(shù)估計和假設檢驗中,它是用于衡量樣本統(tǒng)計量與總體參數(shù)之間差距的重要尺度。在實際應用中,標準誤差往往是根據(jù)樣本數(shù)據(jù)計算來的,根據(jù)樣本數(shù)據(jù)計算的標準誤差實際上是 估計標準誤差 (在用統(tǒng)計軟件 計算時給出的都是估計標準誤差)。常見的標準誤差有樣本均值的標準誤差、樣本比例的標準誤差、樣本相關系數(shù)的標準誤差、線性回歸方程斜率及截距的標準誤差、回歸估計的標準誤差等,與標準差的關系為: 。
標準差性質
非負性 標準差的非負性指標準差的值始終為非負數(shù),即標準差不可能為負數(shù)。因為標準差是一個衡量數(shù)據(jù)分散程度的統(tǒng)計量,它是平均值和每個數(shù)據(jù)點之間的差的平方的平均值的平方根。平方根的結果始終為非負數(shù),所以標準差也始終為非負數(shù)。
可加性 標準差的可加性是指在滿足一定條件下,兩個或多個相互獨立隨機變量的標準差可以相加。如果有多個隨機變量,例如X、Y、Z等,它們各自具有自己的標準差 ,想要計算它們的總體標準差s,則可以使用以下公式: 也就是將每個隨機變量的標準差平方相加,然后再將其和 開平方 即可得到總體標準差。這個公式可以推廣到任意數(shù)量的隨機變量上,而且不管這些隨機變量之間是否存在相關性,都可以使用這個公式計算它們的總體標準差。
標準差及正態(tài)分布 標準差的正態(tài)分布是指,對于一個服從正態(tài)分布的隨機變量,其標準差的取值也服從一個正態(tài)分布。正態(tài)分布是由它的平均數(shù)u和標準差唯一決定的常把它記為 ,即標準差 條件下的正態(tài)分布記為 從形態(tài)上看,正態(tài)分布是一條單峰、對稱鐘形的曲線,其對稱軸為 ,并在 時取最大值從 點開始,曲線向正負兩個方向遞減延伸,不斷逼近x軸但永不與x軸相交因此說曲線在正負兩個方向都是以x軸為漸近線的。 通過以下三組正態(tài)分布的曲線,可知正態(tài)曲線具有兩頭低、中間高、左右對稱的基本特征。
常數(shù)的標準差 假設X是隨機變量,數(shù)學期望 E(X)存在,并且定義 也存在,則稱之為X的方差,記作 ,即 稱為隨機變量X的標準差。
乘積的標準差 已知隨機變量X1均值和方差分別為a、b,X2的均值和方差分別為c、d,那么 的方差是: 即其標準差為
基本計算 標準差的數(shù)學理解是對數(shù)據(jù)的離散程度的度量,它是每個數(shù)據(jù)值與平均值的偏差的 平方平均數(shù) 的平方根。 如果數(shù)據(jù)的標準差較小,則表示這些數(shù)據(jù)非常接近平均值,數(shù)據(jù)的離散程度較小,而數(shù)據(jù)的標準差較大,則表示這些數(shù)據(jù)相對分散,數(shù)據(jù)的離散程度較大。 用公式表示是:
技算步驟 標準差的基本計算步驟主要分為以下五步 :
計算數(shù)據(jù)的平均值,即將所有數(shù)據(jù)之和除以數(shù)據(jù)的個數(shù),得到一個數(shù)值,記為 。 計算每個數(shù)據(jù)值與平均值的差,即將每個數(shù)據(jù)減去平均值 ,得到一組差值。 計算每個差值的平方,即將每個差值的絕對值平方,得到一組平方值。
計算所有平方值的平均數(shù),即將所有平方值之和除以樣本數(shù)量,得到一個數(shù)值記為 。 求出標準差,即將 取平方根,得到一個數(shù)值記為 。
實例 假設我們有10名學生在一份考試中的得分如下:[75, 80, 60, 90, 95, 70, 85, 85, 90, 65]
第一步計算平均值: =(75 + 80 + 60 + 90 + 95 + 70 + 85 + 85 + 90 + 65) / 10 = 80 第二步計算每位學生得分和平均值之間的差值:
75 - 80 = -5
80 - 80 = 0
60 - 80 = -20
90 - 80 = 10
95 - 80 = 15
70 - 80 = -10
85 - 80 = 5
85 - 80 = 5
90 - 80 = 10
65 - 80 = -15
第三步計算每個差值的平方值:
(-5)2 = 25
02 = 0
(-20)2 = 400
102 = 100
152 = 225
(-10)2 = 100
52 = 25
52 = 25
102 = 100
(-15)2 = 225
第四步計算平方求和,將所有差值的平方值相加:
25 + 0 + 400 + 100 + 225 + 100 + 25 + 25 + 100 + 225 = 1250
第五步計算方差:
最后計算標準差:
這組數(shù)據(jù)的標準差為11.18。 這說明學生得分在平均分附近波動很大,差異較大,不能僅僅看平均數(shù)來評價學生的水平,而需要綜合考慮標準差進行分析。
應用范圍
經(jīng)濟學 在經(jīng)濟金融領域,標準差可以用于衡量經(jīng)濟金融數(shù)據(jù)的波動程度和風險程度。
股票投資 標準差在股票投資中扮演了非常重要的角色。投資者可以計算一只股票或組合股票的標準差來度量它們的風險程度。一般來說,標準差越大,相對風險程度也越高,因此能夠幫助投資者評估其投資組合的風險度,以及在風險和回報之間做出權衡。
證券組合 標準差也可以用于評估證券組合的風險水平。投資者可以計算證券組合的 平均收益率 和標準差,以評估該組合的價值和風險程度。投資者可以通過調整組合中各種資產(chǎn)的權重,來控制組合的風險和回報之間的平衡關系。
期權和期貨交易 標準差在期權和期貨交易中也是非常重要的一個統(tǒng)計指標。在期權和期貨交易中,投資者需要評估市場波動率和價格風險,以便采取相應的對沖策略。標準差可以幫助投資者計算期權和期貨的隱含波動率,幫助他們更好地控制交易風險。
貨幣匯率 標準差還可以用于貨幣交易和匯率變動的分析。投資者可以計算匯率的標準差來衡量市場波動,并通過衍生品和對沖工具的方式來規(guī)避交易風險。
經(jīng)濟數(shù)據(jù) 標準差也可以用于評估經(jīng)濟數(shù)據(jù)波動程度,比如通貨膨脹率、失業(yè)率和GDP等。標準差可以幫助經(jīng)濟學家和決策者評估市場和經(jīng)濟的波動性及風險,以及預測未來 經(jīng)濟走勢。
社會科學 在社會科學領域,標準差用于測量和評估各種社會現(xiàn)象的數(shù)據(jù)波動和差異以及不確定性情況。
人口學 對于某些重要的社會群體,例如不同年齡、性別、種族或出生地的人群,社會學家可以使用標準差來描繪社會群體的總體和特征,例如人口數(shù)量、人口密度和 人口增長率 等。
教育學 在教育研究中,標準差可以幫助教育人員和社會學家了解學生某一領域的學術成績的分布情況,例如學生的考試成績等。同時,可以通過計算標準差來評估學生之間的差異以及學生在不同領域的學術表現(xiàn)的波動情況。
心理學 在心理學領域,標準差可以被用來研究人群或者一組數(shù)據(jù)中領域間的變異程度。例如,測試心理健康的量表可以用標準差來描述被試者之間的差異程度。
社會調查分析 在社會調查分析中,標準差可以用來描繪社會調研數(shù)據(jù)的差異和波動情況,可以幫助設計合適的調研問卷和分析數(shù)據(jù)。通過調研數(shù)據(jù)的標準差,研究者能夠更好地理解數(shù)據(jù)背后的含義,深入分析調研的結果和趨勢,為政策制定和決策提供數(shù)據(jù)支持。
醫(yī)學 在醫(yī)學領域,標準差也被廣泛應用于不同醫(yī)療領域的統(tǒng)計計算和數(shù)據(jù)分析方面。
臨床試驗 在設計和分析臨床試驗時,標準差是必不可少的一個統(tǒng)計量。標準差可以幫助研究人員確定試驗的樣本量、預測試驗結果和確定試驗數(shù)據(jù)的可靠性,有效地評估藥物和治療方法的有效性和安全性。
流行病學 標準差在 流行病學調查 和數(shù)據(jù)分析中也是一個非常有用的工具。通過計算標準差,可以評估流行病學調查數(shù)據(jù)的差異,檢查研究的數(shù)據(jù)是否符合正態(tài)分布曲線,提高流行病學研究的可靠性和改善公共衛(wèi)生政策,同時還可以用于制定醫(yī)學預算和數(shù)據(jù)管理。
醫(yī)療數(shù)據(jù)分析 在醫(yī)療數(shù)據(jù)分析中,標準差可以用于評估醫(yī)療數(shù)據(jù)集的變異程度。例如,醫(yī)生可以比較某一患者的生命體征(如心率、呼吸率、體溫等)與同齡、同性別、同體型健康人群的平均值以及標準差,判斷該患者所表現(xiàn)出來的生命體征是否異常。 如果該姑娘體溫偏高,但其仍在其年齡、同性別人群體溫的1個標準偏差內(nèi),那么該體溫異常就不太可能是真正的健康問題。
物理學 在物理領域,標準差也有著廣泛的應用,特別是在實驗測量和數(shù)據(jù)處理中。
實驗測量誤差的評估 在實驗室中,物理學家通常需要進行各種類型的測量,比如測量物理量的大小、重量、溫度等,并通過實驗數(shù)據(jù)來驗證理論模型。由于測量設備的精度和操作人員的技術水平等因素,每個測量結果都可能帶有一定誤差。為了衡量這種誤差,物理學家通常使用標準差來評估測量數(shù)據(jù)的離散程度,以確定實驗數(shù)據(jù)是否符合預期。如果標準差比較小,表明測量誤差較小,實驗數(shù)據(jù)比較可靠。
物理量的不確定度計算 在物理學中,很多物理量的大小可以通過測量或計算得到。由于測量誤差和測量設備導致的精度限制等因素的存在,這些物理量都帶有一定的不確定度。物理學家通常使用標準差來計算這些物理量的不確定度,進而評估測量數(shù)據(jù)的合理性和可靠性。
數(shù)據(jù)分布的分析 在物理學中,物理學家通常需要對一些物理量的分布進行分析,以確定其性質和規(guī)律。 例如,對于一組時間數(shù)據(jù),物理學家可以使用標準差來計算數(shù)據(jù)的離散程度和分布的形狀,進而確定數(shù)據(jù)分布是正態(tài)分布還是非正態(tài)分布。在實際研究中,這種分布分析對于確定物理定律或預測自然現(xiàn)象的發(fā)展趨勢等方面是非常重要的。
實驗數(shù)據(jù)可視化 在物理學領域,可視化是一個非常重要的方法,可以幫助物理學家更好地理解數(shù)據(jù)。通過將實驗數(shù)據(jù)繪制成柱狀圖、直方圖或散點圖等圖形化形式,結合標準差等指標進行分析,可以直觀地展現(xiàn)數(shù)據(jù)的分布情況和趨勢,更容易發(fā)現(xiàn)數(shù)據(jù)中存在的規(guī)律和異常。
工程學 在工程領域中,標準差用于描述數(shù)據(jù)的方差和波動情況,從產(chǎn)品設計到質量控制、風險管理、實驗分析等各個方面,都具有重要的作用。同時,標準差也能衡量產(chǎn)品的生產(chǎn)過程的穩(wěn)定性,判斷產(chǎn)品是否符合規(guī)格要求。 下圖就是一個工程測試數(shù)據(jù)例。
NO.
測試前
測試后
差異
測試前
測試后
差異
測試前
測試后
差異
1
93.0
94.0
-1.0
62.1
63.5
-1.4
39.0
40.0
-1.0
2
94.0
93.0
1.0
65.0
62.9
2.1
40.0
41.0
-1.0
3
93.0
94.0
-1.0
66.2
64.1
2.1
41.0
39.0
2.0
4
93.0
93.0
0.0
66.5
65.2
1.3
39.0
40.0
-1.0
5
94.0
93.0
1.0
62.2
63.2
-1.0
40.0
41.0
-1.0
6
93.0
94.0
-1.0
63.5
65.4
-1.9
39.0
40.0
-1.0
7
96.0
95.0
1.0
66.2
67.9
-1.7
40.0
39.0
1.0
8
95.0
94.0
1.0
64.8
67.1
-2.3
41.0
40.0
1.0
9
94.0
95.0
-1.0
65.3
63.2
2.1
41.0
39.0
2.0
10
94.0
93.0
1.0
64.3
66.5
-2.2
40.0
41.0
-1.0
最大
96.0
95.0
1.0
66.5
67.9
2.1
41.0
41.0
2.0
最小
93.0
93.0
-1.0
62.1
62.9
-2.3
39.0
39.0
-1.0
平均
94.0
93.8
0.1
64.6
65.0
-0.3
40.0
40.0
0.1
標準差
1.1
0.8
1.0
1.6
1.9
1.9
0.8
0.8
1.3
風險管理 標準差在工程領域被廣泛地運用于風險管理以及工程設計中。通過計算出項目中各種風險的標準差,工程師可以確定在各種情況下的風險預期波動值,并找到最好的可能性。此外,在設計階段,標準差可以幫助工程人員確定潛在的影響范圍,制定合理的設計方案,從而降低風險和損失。
統(tǒng)計分析 在實驗和測試階段,標準差可以被用來評估數(shù)據(jù)的可重復性和一致性。通過評估標準差的大小,工程人員可以決定是否需要采取更多的測試措施,以達成更準確和可信的結果。
標準差的這些實際應用領域,其本質都是基于統(tǒng)計學,統(tǒng)計學還包括了假設檢驗、方差分析、回歸分析和時間序列分析等針對實際問題的技術和建模方法 。標準差則是這些方法的基本工具之一,用于檢測數(shù)據(jù)的偏差和分析數(shù)據(jù)的波動性。標準差既能作為協(xié)變量,也可以用于估計模型中的誤差項等,它在統(tǒng)計學中無處不在和非常重要。
發(fā)展趨勢 近年來新的統(tǒng)計學方法不斷涌現(xiàn),但標準差在統(tǒng)計學中的地位和重要性仍然不可撼動。
數(shù)據(jù)科學和人工智能 標準差是評估機器學習模型質量的一種重要指標,可以衡量模型對數(shù)據(jù)的擬合程度和泛化能力。未來標準差在數(shù)據(jù)科學和人工智能領域的應用將越來越廣泛。
大數(shù)據(jù) 大數(shù)據(jù)分析越來越重視樣本量的大小,標準差可以作為評估樣本總體偏差和離散程度的重要指標,可以更好地分析和解釋數(shù)據(jù)集中數(shù)據(jù)的分布形態(tài)。
數(shù)據(jù)可視化 標準差也可以用來輔助數(shù)據(jù)可視化,通過繪制標準差的 誤差棒 圖,可以更直觀地展示樣本均值和標準差的變化趨勢。