引導(dǎo)示例
Bootstrapping是一種強(qiáng)大的統(tǒng)計技術(shù)。當(dāng)我們正在使用的樣本量很小時,它特別有用。在通常情況下,假設(shè)正態(tài)分布或t分布不能處理小于40的樣本量。Bootstrap技術(shù)適用于少于40個元素的樣本。原因是自舉涉及重采樣。這些技術(shù)對我們數(shù)據(jù)的分布沒有任何假設(shè)。
隨著計算資源變得更加容易獲得,引導(dǎo)變得越來越流行。這是因?yàn)闉榱耸棺耘e實(shí)用,必須使用計算機(jī)。在下面的引導(dǎo)示例中,我們將看到它是如何工作的。
示例
我們從一個我們一無所知的人口統(tǒng)計樣本開始。我們的目標(biāo)是關(guān)于樣本平均值的90%置信區(qū)間。盡管用于確定置信區(qū)間的其他統(tǒng)計技術(shù)假設(shè)我們知道總體的均值或標(biāo)準(zhǔn)差,但自舉不需要樣本以外的任何東西。
就我們的例子而言,我們將假設(shè)樣本是1,2,4,4,10。
引導(dǎo)程序樣本
現(xiàn)在,我們從樣本中重新采樣以形成所謂的引導(dǎo)樣本。就像我們的原始樣本一樣,每個引導(dǎo)程序樣本的大小都為5。由于我們是隨機(jī)選擇然后替換每個值,因此引導(dǎo)程序樣本可能與原始樣本和彼此不同。
例如,我們將在現(xiàn)實(shí)世界中遇到的情況,我們會重復(fù)采樣數(shù)百次甚至數(shù)千次。在下面的內(nèi)容中,我們將看到20個引導(dǎo)程序樣本的示例趣味小知識:
- 34,2,1,10,4,2,35,36,4,10,10,2,4,37,38,1,4,1,4,39,40,4,1,1,4,10,41,42,4,4,1,4,4,4,4,2,43,44,4,10,10,10,4
- 2,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,2,1,1,4
- 1,10,2,10,10,10,10,10,10,10,10,10,10,4,4,4,4,4,4,4,4,4,4,4
- 4,4,4,2,4
- 10,4,1,4,4
- 4,2,1,1,2
- 10,2,2,1,1
Mean
由于我們使用引導(dǎo)程序來計算總體均值的置信區(qū)間,因此我們現(xiàn)在計算每個引導(dǎo)程序樣本的均值。這些裝置按升序排列為:2,2.4,2.6,2.6,2.8,3,3,3.2,3.4,3.6,3.8,4,4,4.2,4.6,5.2,6,6,6.6,7.6。
置信區(qū)間
我們現(xiàn)在從引導(dǎo)程序樣本列表中獲得一個置信區(qū)間。由于我們需要90%的置信區(qū)間,因此我們使用第95和第5個百分位數(shù)作為區(qū)間的終點(diǎn)。原因是我們將****-90%=10%分成兩半,以便我們將所有自舉樣本均值的中間90%。
對于上面的例子,我們的置信區(qū)間為2.4到6.6。