雙向表中變量獨立的自由度
兩個分類變量獨立的自由度數(shù)由一個簡單的公式給出:(r-1)(c-1)。這里r是行數(shù),c是分類變量值的雙向表中的列數(shù)。繼續(xù)閱讀以了解有關(guān)此主題的更多信息并了解為什么此公式給出正確的數(shù)字。
Background
許多假設(shè)檢驗過程中的一個步驟是確定自由度數(shù)。這個數(shù)字很重要,因為對于涉及一系列分布的概率分布,例如卡方分布,自由度數(shù)確定了我們在假設(shè)檢驗中應(yīng)使用的家庭的確切分布。
自由度代表我們在特定情況下可以做出的自由選擇的數(shù)量。要求我們確定自由度的假設(shè)檢驗之一是兩個分類變量的獨立性卡方檢驗。
獨立性測試和雙向表
獨立性的卡方檢驗要求我們構(gòu)建一個雙向表,也稱為列聯(lián)表。這種類型的表具有r行和c列,表示一個分類變量的r水平和另一個分類變量的c水平。因此,如果我們不計算記錄總數(shù)的行和列,則雙向表中總共有rc個單元格。
卡方檢驗的獨立性使我們能夠檢驗分類變量彼此獨立的假設(shè)。如上所述,表中的r行和c列給出我們(r-1)(c-1))自由度。但可能不清楚為什么這是正確的自由度數(shù)量。
De的數(shù)量自由之家
為了查看為什么(r-1)(c-1)是正確的數(shù)字,我們將更詳細(xì)地檢查這種情況。假設(shè)我們知道分類變量的每個級別的邊際總數(shù)。換句話說,我們知道每行的總數(shù)和每列的總數(shù)。對于第一行,我們表中有c列,因此有c個單元格。一旦我們知道這些單元中除了一個單元之外的所有單元的值,那么因為我們知道所有單元的總數(shù),所以確定剩余單元的值是一個簡單的代數(shù)問題。如果我們填寫表格中的這些單元格,我們可以自由輸入其中的c-1,但其余單元格由行的總數(shù)確定。因此,第一行有c-1個自由度。
我們在下一行繼續(xù)以這種方式,再次有c-1個自由度。這個過程一直持續(xù)到我們倒數(shù)第二行。除**一行外,每行對總數(shù)貢獻c-1個自由度。到我們擁有**一行以外的所有內(nèi)容時,因為我們知道列總和,所以我們可以確定**一行的所有條目。這給了我們r-1行,每行c-1自由度,總共(r-1)(c-1)自由度。
示例
我們通過以下示例看到這一點。假設(shè)我們有一個帶有兩個分類變量的雙向表。一個變量有三個級別,另一個變量有兩個級別。此外,假設(shè)我們知道該表的行和列總數(shù):
114 A級115116級B 117 | Total | ||
1級 | 100 | ||
200 | |||
300 | |||
總計 | 200 | 400 | 600 |
該公式預(yù)測有(3-1)(2-1)=2個自由度。我們看到如下。假設(shè)我們用數(shù)字80填充左上角的單元格。這將自動確定整個第一行條目:
186 A級187188級B 189級 | 總計 | ||
80 | 198 20 199100 | ||
200 | |||
3級 | 300 | ||
總計 | 200 | 400 | 600 |
現(xiàn)在,如果我們知道第二行中的第一個條目是50,那么表格的其余部分將被填寫,因為我們知道每行和列的總數(shù):
258 A級259 | B級 | 總計 | |
Level 1 | 80 | 20 | 100 |
Level 2 | 50 | 150 | 200 |
70 | 230 | 300 | |
Total | 200 | 400 | 600 |
雖然我們通常不需要知道為什么有這么多的自由度,但很高興知道我們真的只是將自由度的概念應(yīng)用于新的情況。
科普星