- 相關(guān)推薦
統(tǒng)計(jì)學(xué)知識(shí)要點(diǎn)匯總2017
統(tǒng)計(jì)學(xué)知識(shí)要點(diǎn)有哪些你知道嗎?你對(duì)統(tǒng)計(jì)學(xué)的知識(shí)要點(diǎn)了解嗎?下面是yjbys小編為大家?guī)?lái)的統(tǒng)計(jì)學(xué)知識(shí)要點(diǎn)匯總的知識(shí),歡迎閱讀。
一、主成分和因子分析
1.(1)概念:在研究實(shí)際問(wèn)題時(shí),往往需要收集多個(gè)變量。但這樣會(huì)使多個(gè)變量間存在較強(qiáng)的相關(guān)關(guān)系,即這些變量間存在較多的信息重復(fù),直接利用它們進(jìn)行分析,不但模型復(fù)雜,還會(huì)因?yàn)樽兞块g存在多重共線性而引起較大的誤差。為能夠充分利用數(shù)據(jù),通常希望用較少的新變量代替原來(lái)較多的舊變量,同時(shí)要求這些新變量盡可能反映原變量的信息。主成分分析和因子分子正是解決這類問(wèn)題的有效方法。它們能夠提取信息,使變量簡(jiǎn)化降維,從而使問(wèn)題更加簡(jiǎn)單直觀
(2)主成分分析:研究如何通過(guò)少數(shù)幾個(gè)主成分(principal component)來(lái)解釋多個(gè)變量間的內(nèi)部結(jié)構(gòu)。即從原始變量中導(dǎo)出少數(shù)幾個(gè)主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關(guān)
主成分分析的目的:數(shù)據(jù)的壓縮;數(shù)據(jù)的解釋。常被用來(lái)尋找判斷事物或現(xiàn)象的綜合指標(biāo),并對(duì)綜合指標(biāo)所包含的信息進(jìn)行適當(dāng)?shù)慕忉尅?主成分所代表的原始變量的信息用其方差來(lái)表示,一般要求所選主成分的方差總和占全部方差的80%以上就可以了。如果原來(lái)的變量之間的相關(guān)程度高,降維的效果就會(huì)好一些,所選的主成分就會(huì)少一些。特征根反映了主成分對(duì)原始變量的影響程度,表示引入該主成分后可以解釋原始變量的信息。特征根又叫方差,某個(gè)特征根占總特征根的比例稱為主成分方差貢獻(xiàn)率。一般情況下,當(dāng)特征根小于1時(shí),就不再選作主成分了,因?yàn)樵撝鞒煞值慕忉屃Χ冗不如直接用原始變量解的釋力度大。)
(3)因子分析:與主成分分析類似,它們都是要找出少數(shù)幾個(gè)新的變量來(lái)代替原始變量。
不同之處:主成分分析中的主成分個(gè)數(shù)與原始變量個(gè)數(shù)是一樣的,即有幾個(gè)變量就有幾個(gè)主成分,只不過(guò)最后我們確定了少數(shù)幾個(gè)主成分而已。而因子分析則需要事先確定要找?guī)讉(gè)成分,也稱為因子(factor),然后將原始變量綜合為少數(shù)的幾個(gè)因子,以再現(xiàn)原始變量與因子之間的關(guān)系,一般來(lái)說(shuō),因子的個(gè)數(shù)會(huì)遠(yuǎn)遠(yuǎn)少于原始變量的個(gè)數(shù)。
因子分析可以看作是主成分分析的推廣和擴(kuò)展,但它對(duì)問(wèn)題的研究更深入、更細(xì)致一些。實(shí)際上,主成分分析可以看作是因子分析的一個(gè)特例
簡(jiǎn)言之,因子分析是通過(guò)對(duì)變量之間關(guān)系的研究,找出能綜合原始變量的少數(shù)幾個(gè)因子,使得少數(shù)因子能夠反映原始變量的絕大部分信息,然后根據(jù)相關(guān)性的大小將原始變量分組,使得組內(nèi)的變量之間相關(guān)性較高,而不同組的變量之間相關(guān)性較低。因此,因子分析屬于多元統(tǒng)計(jì)中處理降維的一種統(tǒng)計(jì)方法,其目的就是要減少變量的個(gè)數(shù),用少數(shù)因子代表多個(gè)原始變量
(4)因子數(shù)量的確定
用公因子方差貢獻(xiàn)率提。号c主成分分析類似,一般累計(jì)方差貢獻(xiàn)率達(dá)到80%以上的前幾個(gè)因子可以作為最后的公因子
用特征根提。阂话阋笠蜃訉(duì)應(yīng)的特征根要大于1,因?yàn)樘卣鞲∮?說(shuō)明該共因子的解釋力度太弱,還不如使用原始變量的解釋力度大
實(shí)際應(yīng)用中,因子的提取要結(jié)合具體問(wèn)題而定,在某種程度上,取決于研究者自身的知識(shí)和經(jīng)驗(yàn)
(5)主成分分析和因子分析都是多元分析中處理降維的兩種統(tǒng)計(jì)方法。只有當(dāng)原始數(shù)據(jù)中的變量之間具有較強(qiáng)的相關(guān)關(guān)系時(shí),降維的效果才會(huì)明顯,否則不適合進(jìn)行主成分分析和因子分析
主成分和因子的選擇標(biāo)準(zhǔn)應(yīng)結(jié)合具體問(wèn)題而定。在某種程度上取決于研究者的知識(shí)和經(jīng)驗(yàn),而不是方法本身
即使得到了滿意的主成分或因子,在運(yùn)用它們對(duì)實(shí)際問(wèn)題進(jìn)行評(píng)價(jià)、排序等分析時(shí),仍然要保持謹(jǐn)慎,因?yàn)橹鞒煞趾鸵蜃赢吘故歉叨瘸橄蟮牧,無(wú)論如何,它們的含義都不如原始變量清晰
因子分析可以看作是主成分分析的推廣和擴(kuò)展,而主成分分析則可以看作是因子分析的一個(gè)特例。目前因子分析在實(shí)際中被廣泛應(yīng)用,而主成分分析通常只作為大型統(tǒng)計(jì)分析的中間步驟,幾乎不再單獨(dú)使用
二、多元回歸
1.多重共線性
回歸模型中兩個(gè)或兩個(gè)以上的自變量彼此相關(guān)
多重共線性帶來(lái)的問(wèn)題有
可能會(huì)使回歸的結(jié)果造成混亂,甚至?xí)逊治鲆肫缤?/p>
可能對(duì)參數(shù)估計(jì)值的正負(fù)號(hào)產(chǎn)生影響,特別是各回歸系數(shù)的正負(fù)號(hào)有可能同我們預(yù)期的正負(fù)號(hào)相反
2.多重共線性的識(shí)別
檢測(cè)多重共線性的最簡(jiǎn)單的一種辦法是計(jì)算模型中各對(duì)自變量之間的相關(guān)系數(shù),并對(duì)各相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)
若有一個(gè)或多個(gè)相關(guān)系數(shù)顯著,就表示模型中所用的自變量之間相關(guān),存在著多重共線性
如果出現(xiàn)下列情況,暗示存在多重共線性
模型中各對(duì)自變量之間顯著相關(guān)。
當(dāng)模型的線性關(guān)系檢驗(yàn)(F檢驗(yàn))顯著時(shí),幾乎所有回歸系數(shù)的t檢驗(yàn)卻不顯著
回歸系數(shù)的正負(fù)號(hào)與預(yù)期的相反。
3.變量選則過(guò)程
在建立回歸模型時(shí),對(duì)自變量進(jìn)行篩選
選擇自變量的原則是對(duì)統(tǒng)計(jì)量進(jìn)行顯著性檢驗(yàn)
將一個(gè)或一個(gè)以上的自變量引入到回歸模型中時(shí),是否使得殘差平方和(SSE)有顯著地減少。如果增加一個(gè)自變量使SSE的減少是顯著的,則說(shuō)明有必要將這個(gè)自變量引入回歸模型,否則,就沒有必要將這個(gè)自變量引入回歸模型
確定引入自變量是否使SSE有顯著減少的方法,就是使用F統(tǒng)計(jì)量的值作為一個(gè)標(biāo)準(zhǔn),以此來(lái)確定是在模型中增加一個(gè)自變量,還是從模型中剔除一個(gè)自變量
變量選擇的方法主要有:向前選擇、向后剔除、逐步回歸、最優(yōu)子集等
4.向前選擇
從模型中沒有自變量開始
對(duì)k個(gè)自變量分別擬合對(duì)因變量的一元線性回歸模型,共有k個(gè),然后找出F統(tǒng)計(jì)量的值最高的模型及其自變量(P值最小的),并將其首先引入模型
分別擬合引入模型外的k-1個(gè)自變量的線性回歸模型
如此反復(fù)進(jìn)行,直至模型外的自變量均無(wú)統(tǒng)計(jì)顯著性為止
5.向后剔除
先對(duì)因變量擬合包括所有k個(gè)自變量的回歸模型。然后考察p(p
考察p-1個(gè)再去掉一個(gè)自變量的模型(這些模型中每一個(gè)都有k-2個(gè)的自變量),使模型的SSE值減小最少的自變量被挑選出來(lái)并從模型中剔除
如此反復(fù)進(jìn)行,一直將自變量從模型中剔除,直至剔除一個(gè)自變量不會(huì)使SSE顯著減小為止
6.逐步回歸
將向前選擇和向后剔除兩種方法結(jié)合起來(lái)篩選自變量
在增加了一個(gè)自變量后,它會(huì)對(duì)模型中所有的變量進(jìn)行考察,看看有沒有可能剔除某個(gè)自變量。如果在增加了一個(gè)自變量后,前面增加的某個(gè)自變量對(duì)模型的貢獻(xiàn)變得不顯著,這個(gè)變量就會(huì)被剔除
按照方法不停地增加變量并考慮剔除以前增加的變量的可能性,直至增加變量已經(jīng)不能導(dǎo)致SSE顯著減少
在前面步驟中增加的自變量在后面的步驟中有可能被剔除,而在前面步驟中剔除的自變量在后面的步驟中也可能重新進(jìn)入到模型中
7.虛擬自變量
用數(shù)字代碼表示的定性自變量
虛擬自變量可有不同的水平
只有兩個(gè)水平的虛擬自變量。比如,性別(男,女)
有兩個(gè)以上水平的虛擬自變量,貸款企業(yè)的類型(家電,醫(yī)藥,其他)
虛擬變量的取值為0,1
回歸模型中使用虛擬自變量時(shí),稱為虛擬自變量的回歸
當(dāng)虛擬自變量只有兩個(gè)水平時(shí),可在回歸中引入一個(gè)虛擬變量,比如,性別
一般而言,如果定性自變量有k個(gè)水平,需要在回歸中模型中引進(jìn)k-1個(gè)虛擬變量
例:引進(jìn)虛擬變量時(shí),回歸方程可寫:
E(y) =b0+ b1x1+ b2x2
女( x2=0):E(y|女性) =b0 +b1x1
男(x2=1):E(y|男性) =(b0 + b2 ) +b1x1
b0的含義表示:女性職工的期望月工資收入
(b0+ b2)的含義表示:男性職工的期望月工資收入
b1含義表示:工作年限每增加1年,男性或女性工資的平均增加值
b2含義表示:男性職工的期望月工資收入與女性職工的期望月工資收入之間的差值 (b0+ b2) - b0= b2
三、簡(jiǎn)單回歸
1.相關(guān)分析:對(duì)兩個(gè)變量之間線性關(guān)系的描述與度量,它要解決的問(wèn)題包括
§ 變量之間是否存在關(guān)系?
§ 如果存在關(guān)系,它們之間是什么樣的關(guān)系?
§ 變量之間的強(qiáng)度如何?
§ 樣本所反映的變量之間的關(guān)系能否代表總體變量之間的關(guān)系?
2.回歸分析:從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式;對(duì)這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著;利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的取值來(lái)預(yù)測(cè)或控制另一個(gè)特定變量的取值,并給出這種預(yù)測(cè)或控制的精確程度
3.回歸分析與相關(guān)分析的區(qū)別
相關(guān)分析中,變量 x 變量 y 處于平等的地位;回歸分析中,變量 y 稱為因變量,處在被解釋的地位,x 稱為自變量,用于預(yù)測(cè)因變量的變化
相關(guān)分析中所涉及的變量 x 和 y 都是隨機(jī)變量;回歸分析中,因變量 y 是隨機(jī)變量,自變量 x 可以是隨機(jī)變量,也可以是非隨機(jī)的確定變量
相關(guān)分析主要是描述兩個(gè)變量之間線性關(guān)系的密切程度;回歸分析不僅可以揭示變量 x 對(duì)變量 y 的影響大小,還可以由回歸方程進(jìn)行預(yù)測(cè)和控制
4.一元線性回歸模型
描述因變量 y 如何依賴于自變量 x 和誤差項(xiàng)e 的方程稱為回歸模型
一元線性回歸模型可表示為
y = b0 +b1 x + e
y 是 x 的線性函數(shù)(部分)加上誤差項(xiàng)
線性部分反映了由于 x 的變化而引起的 y 的變化
誤差項(xiàng) e 是隨機(jī)變量
l 反映了除 x 和 y 之間的線性關(guān)系之外的隨機(jī)因素對(duì) y 的影響
l 是不能由 x 和 y 之間的線性關(guān)系所解釋的變異性
b0 和 b1 稱為模型的參數(shù)
5.利用回歸方程預(yù)測(cè)時(shí)應(yīng)注意
1. 在利用回歸方程進(jìn)行估計(jì)或預(yù)測(cè)時(shí),不要用樣本數(shù)據(jù)之外的x值去預(yù)測(cè)相對(duì)應(yīng)的y值
2. 因?yàn)樵谝辉性回歸分析中,總是假定因變量y與自變量x之間的關(guān)系用線性模型表達(dá)是正確的。但實(shí)際應(yīng)用中,它們之間的關(guān)系可能是某種曲線
3. 此時(shí)我們總是要假定這條曲線只有一小段位于x測(cè)量值的范圍之內(nèi)。如果x的取值范圍是在xL和xU之間,那么可以用所求出的利用回歸方程對(duì)處于xL和xU之間的值來(lái)估計(jì)E(y)和預(yù)測(cè)y。如果用xL和xU之間以外的值得出的估計(jì)值和預(yù)測(cè)值就會(huì)很差
6.離差平方和
總平方和(SST)
反映因變量的 n 個(gè)觀察值與其均值的總離差
回歸平方和(SSR)
反映自變量 x 的變化對(duì)因變量 y 取值變化的影響,或者說(shuō),是由于 x 與 y 之間的線性關(guān)系引起的 y 的取值變化,也稱為可解釋的平方和
殘差平方和(SSE)
反映除 x 以外的其他因素對(duì) y 取值的影響,也稱為不可解釋的平方和或剩余平方和
7.估計(jì)標(biāo)準(zhǔn)誤差
實(shí)際觀察值與回歸估計(jì)值離差平方和的均方根(自由度n-2)
反映實(shí)際觀察值在回歸直線周圍的分散狀況
對(duì)誤差項(xiàng)e的標(biāo)準(zhǔn)差s的估計(jì),是在排除了x對(duì)y的線性影響后,y隨機(jī)波動(dòng)大小的一個(gè)估計(jì)量
反映用估計(jì)的回歸方程預(yù)測(cè)y時(shí)預(yù)測(cè)誤差的大小
四、方差分析
1. 通過(guò)分析數(shù)據(jù)的誤差判斷各總體均值是否相等;研究一個(gè)或多個(gè)分類型自變量對(duì)一個(gè)數(shù)值型因變量的影響
單因素方差分析:涉及一個(gè)分類的自變量
雙因素方差分析:涉及兩個(gè)分類的自變量
2.(1)僅從散點(diǎn)圖上觀察還不能提供充分的證據(jù)證明不同行業(yè)被投訴的次數(shù)之間有顯著差異
這種差異也可能是由于抽樣的隨機(jī)性所造成的
需要有更準(zhǔn)確的方法來(lái)檢驗(yàn)這種差異是否顯著,也就是進(jìn)行方差分析
所以叫方差分析,因?yàn)殡m然我們感興趣的是均值,但在判斷均值之間是否有差異時(shí)則需要借助于方差
這個(gè)名字也表示:它是通過(guò)對(duì)數(shù)據(jù)誤差來(lái)源的分析判斷不同總體的均值是否相等。因此,進(jìn)行方差分析時(shí),需要考察數(shù)據(jù)誤差的來(lái)源
(2)隨機(jī)誤差
因素的同一水平(總體)下,樣本各觀察值之間的差異
比如,同一行業(yè)下不同企業(yè)被投訴次數(shù)是不同的
這種差異可以看成是隨機(jī)因素的影響,稱為隨機(jī)誤差
系統(tǒng)誤差
因素的不同水平(不同總體)下,各觀察值之間的差異
比如,不同行業(yè)之間的被投訴次數(shù)之間的差異
這種差異可能是由于抽樣的隨機(jī)性所造成的,也可能是由于行業(yè)本身所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系統(tǒng)誤差
(3) 數(shù)據(jù)的誤差用平方和(sum of squares)表示
組內(nèi)平方和(within groups)
因素的同一水平(同一個(gè)總體)下樣本數(shù)據(jù)的平方和
比如,零售業(yè)被投訴次數(shù)的誤差平方和
組內(nèi)平方和只包含隨機(jī)誤差
組間平方和(between groups)
因素的不同水平(不同總體)下各樣本之間的平方和
比如,四個(gè)行業(yè)被投訴次數(shù)之間的誤差平方和
組間平方和既包括隨機(jī)誤差,也包括系統(tǒng)誤差
3.方差分析的基本假定
正態(tài)性:每個(gè)總體都應(yīng)服從正態(tài)分布
對(duì)于因素的每一個(gè)水平,其觀察值是來(lái)自服從正態(tài)分布總體的簡(jiǎn)單隨機(jī)樣本
比如,每個(gè)行業(yè)被投訴的次數(shù)必需服從正態(tài)分布
方差齊性:各個(gè)總體的方差必須相同
各組觀察數(shù)據(jù)是從具有相同方差的總體中抽取的
比如,四個(gè)行業(yè)被投訴次數(shù)的方差都相等
獨(dú)立性:觀察值是獨(dú)立的(該假定不滿足對(duì)結(jié)果影響較大)
4.問(wèn)題的一般提法:(1)設(shè)因素有k個(gè)水平,每個(gè)水平的均值分別用m1 , m2, ¼, mk 表示
(2)要檢驗(yàn)k個(gè)水平(總體)的均值是否相等,需要提出如下假設(shè):
H0 : m1 = m2 = …= mk
H1 : m1 , m2 , ¼,mk 不全相等
5.SST:全部觀察值xij與總平均值的離差平方和,反映全部觀察值的離散狀況
SSA:各組平均值xi與總平均值xij的離差平方和;反映各總體的樣本均值之間的差異程度,又稱組間平方和;該平方和既包括隨機(jī)誤差,也包括系統(tǒng)誤差
SSE:每個(gè)水平或組的各樣本數(shù)據(jù)與其組平均值的離差平方和;反映每個(gè)樣本各觀察值的離散狀況,又稱組內(nèi)平方和;該平方和反映的是隨機(jī)誤差的大小
總離差平方和(SST)、誤差項(xiàng)離差平方和(SSE)、水平項(xiàng)離差平方和 (SSA) 之間的關(guān)系:
SST = SSA + SSE
如果原假設(shè)成立,則表明沒有系統(tǒng)誤差,組間平方和SSA除以自由度后的均方與組內(nèi)平方和SSE和除以自由度后的均方差異就不會(huì)太大;如果組間均方顯著地大于組內(nèi)均方,說(shuō)明各水平(總體)之間的差異不僅有隨機(jī)誤差,還有系統(tǒng)誤差
判斷因素的水平是否對(duì)其觀察值有影響,實(shí)際上就是比較組間方差與組內(nèi)方差之間差異的大小
6.均方
各誤差平方和的大小與觀察值的多少有關(guān),為消除觀察值多少對(duì)誤差平方和大小的影響,需要將其平均,這就是均方,也稱為方差
計(jì)算方法是用誤差平方和除以相應(yīng)的自由度
三個(gè)平方和對(duì)應(yīng)的自由度分別是
SST 的自由度為n-1,其中n為全部觀察值的個(gè)數(shù)
SSA的自由度為k-1,其中k為因素水平(總體)的個(gè)數(shù)
SSE 的自由度為n-k
7.構(gòu)造檢驗(yàn)統(tǒng)計(jì)量
將MSA和MSE進(jìn)行對(duì)比,即得到所需要的檢驗(yàn)統(tǒng)計(jì)量F
當(dāng)H0為真時(shí),二者的比值服從分子自由度為k-1、分母自由度為 n-k 的 F 分布
將統(tǒng)計(jì)量的值F與給定的顯著性水平a的臨界值Fa進(jìn)行比較,作出對(duì)原假設(shè)H0的決策
² 根據(jù)給定的顯著性水平a,在F分布表中查找與第一自由度df1=k-1、第二自由度df2=n-k 相應(yīng)的臨界值 Fa
² 若F>Fa ,則拒絕原假設(shè)H0 ,表明均值之間的差異是顯著的,所檢驗(yàn)的因素對(duì)觀察值有顯著影響
² 若F
8.關(guān)系強(qiáng)度
變量間關(guān)系的強(qiáng)度用自變量平方和(SSA)及殘差平方和(SSE)占總平方和(SST)的比例大小來(lái)反映
自變量平方和占總平方和的比例記為R2 ,即
3、其平方根R就可以用來(lái)測(cè)量?jī)蓚(gè)變量之間的關(guān)系強(qiáng)度
五、假設(shè)檢驗(yàn)
(一)概念
先對(duì)總體的參數(shù)(或分布形式)提出某種假設(shè),然后利用樣本信息判斷假設(shè)是否成立的過(guò)程
有參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)
邏輯上運(yùn)用反證法,統(tǒng)計(jì)上依據(jù)小概率原理
什么小概率?
1. 在一次試驗(yàn)中,一個(gè)幾乎不可能發(fā)生的事件發(fā)生的概率
2. 在一次試驗(yàn)中小概率事件一旦發(fā)生,我們就有理由拒絕原假設(shè)
3. 小概率由研究者事先確定
怎樣通過(guò)假設(shè)檢驗(yàn)去掉偶然性
利用P值進(jìn)行檢驗(yàn)就可以去掉偶然性。因?yàn)镻值告訴我們?cè)谀硞(gè)總體的許多樣本中,某一類數(shù)據(jù)出現(xiàn)的經(jīng)常程度,P值是當(dāng)原假設(shè)正確的情況下,得到所觀測(cè)的數(shù)據(jù)的概率。如果原假設(shè)是正確的,P值若很小,則告訴我餓們得到這樣的觀測(cè)數(shù)據(jù)是多么的不可能,相當(dāng)不可能得到的數(shù)據(jù),就是原假設(shè)不對(duì)的合理證據(jù),偶然性也就消除了。
(二)原假設(shè)
1. 研究者想收集證據(jù)予以反對(duì)的假設(shè)。是關(guān)于總體參數(shù)的表述,它是接受檢驗(yàn)的假設(shè)。
2. 總是有符號(hào) =, £ 或 ³
3. 表示為 H0
n H0 : m = 某一數(shù)值
n 指定為符號(hào) =,£ 或 ³
(三)備擇假設(shè)
研究者想收集證據(jù)予以支持的假設(shè)。黨員假設(shè)被否定時(shí)另一種可成立的假設(shè)。
總是有符號(hào) ¹, < 或 >
表示為 H1
n H1 : m <某一數(shù)值,或m >某一數(shù)值
(四)結(jié)論與總結(jié)
原假設(shè)和備擇假設(shè)是一個(gè)完備事件組,而且相互對(duì)立
n 在一項(xiàng)假設(shè)檢驗(yàn)中,原假設(shè)和備擇假設(shè)必有一個(gè)成立,而且只有一個(gè)成立
先確定備擇假設(shè),再確定原假設(shè)
等號(hào)“=”總是放在原假設(shè)上
因研究目的不同,對(duì)同一問(wèn)題可能提出不同的假設(shè)(也可能得出不同的結(jié)論)
(五)兩類錯(cuò)誤
1. 第Ⅰ類錯(cuò)誤(棄真錯(cuò)誤)
原假設(shè)為真時(shí)拒絕原假設(shè)
第Ⅰ類錯(cuò)誤的概率記為a。被稱為顯著性水平。常用的 a 值有0.01, 0.05, 0.10
2. 第Ⅱ類錯(cuò)誤(取偽錯(cuò)誤)
原假設(shè)為假時(shí)未拒絕原假設(shè)
第Ⅱ類錯(cuò)誤的概率記為b (Beta)
影響b錯(cuò)誤的因素:1. 總體參數(shù)的真值。隨著假設(shè)的總體參數(shù)的減少而增大
2. 顯著性水平 a。當(dāng) a 減少時(shí)增大 3. 總體標(biāo)準(zhǔn)差 s。當(dāng) s 增大時(shí)增大 4.樣本容量 n。當(dāng) n 減少時(shí)增大
控制:進(jìn)行假設(shè)檢驗(yàn)時(shí)總希望犯兩類錯(cuò)誤的可能性都很小,然而,在其他條件不變的情況下,a與b是此消彼長(zhǎng)的關(guān)系,二者不可能同時(shí)減小。若要同時(shí)減小a與b,只能是增大樣本量。一般總是控制a,是犯錯(cuò)誤的概率不大于a,即a是允許犯棄真錯(cuò)誤的最大概率值(而P值相當(dāng)于根據(jù)樣本計(jì)算的犯棄真錯(cuò)誤的概率值,故P值又稱為觀測(cè)的顯著性水平)。但確定a時(shí)必須注意,如果犯棄真錯(cuò)誤的代價(jià)較大,a可取小些,相反,如果返取偽錯(cuò)誤的代價(jià)較大,則a宜取大些(以使b較小)
(六)假設(shè)檢驗(yàn)的結(jié)論表述
假設(shè)檢驗(yàn)的目的就在于試圖找到拒絕原假設(shè),而不在于證明什么是正確的
拒絕原假設(shè)時(shí)結(jié)論是清楚的
例如,H0:m=10,拒絕H0時(shí),我們可以說(shuō)¹m10
當(dāng)不拒絕原假設(shè)時(shí)
并未給出明確的結(jié)論
不能說(shuō)原假設(shè)是正確的,也不能說(shuō)它不是正確的
例如, 當(dāng)不拒絕H0:m=10,我們并未說(shuō)它就是10,但也未說(shuō)它不是10。我們只能說(shuō)樣本提供的證據(jù)還不足以推翻原假設(shè)
(七)統(tǒng)計(jì)上的顯著與實(shí)際意義
1. 當(dāng)拒絕原假設(shè)時(shí),我們稱樣本結(jié)果是統(tǒng)計(jì)上顯著的(statistically Significant)
2. 當(dāng)不拒絕原假設(shè)時(shí),我們稱樣本結(jié)果是統(tǒng)計(jì)上不顯著的
3. 在“顯著”和“不顯著”之間沒有清除的界限,只是在P值越來(lái)越小時(shí),我們就有越來(lái)越強(qiáng)的證據(jù),檢驗(yàn)的結(jié)果也就越來(lái)越顯著
4. “顯著的”(Significant)一詞的意義在這里并不是“重要的”,而是指“非偶然的”
5. 一項(xiàng)檢驗(yàn)在統(tǒng)計(jì)上是“顯著的”,意思是指:這樣的(樣本)結(jié)果不是偶然得到的,或者說(shuō),不是靠機(jī)遇能夠得到的
6. 如果得到這樣的樣本概率(P)很小,則拒絕原假設(shè)
在這么小的概率下竟然得到了這樣的一個(gè)樣本,表明這樣的樣本經(jīng)常出現(xiàn),所以,樣本結(jié)果是顯著的
7. 在進(jìn)行決策時(shí),我們只能說(shuō)P值越小,拒絕原假設(shè)的證據(jù)就越強(qiáng),檢驗(yàn)的結(jié)果也就越顯著
8. 但P值很小而拒絕原假設(shè)時(shí),并不一定意味著檢驗(yàn)的結(jié)果就有實(shí)際意義
因?yàn)榧僭O(shè)檢驗(yàn)中所說(shuō)的“顯著”僅僅是“統(tǒng)計(jì)意義上的顯著”
一個(gè)在統(tǒng)計(jì)上顯著的結(jié)論在實(shí)際中卻不見得就很重要,也不意味著就有實(shí)際意義
9. 因?yàn)橹蹬c樣本的大小密切相關(guān),樣本量越大,檢驗(yàn)統(tǒng)計(jì)量的P值也就越大,P值就越小,就越有可能拒絕原假設(shè)
10.如果你主觀上要想拒絕原假設(shè)那就一定能拒絕它
這類似于我們通常所說(shuō)的“欲加之罪,何患無(wú)詞”
只要你無(wú)限制擴(kuò)大樣本量,幾乎總能拒絕原假設(shè)
11.當(dāng)樣本量很大時(shí),解釋假設(shè)檢驗(yàn)的結(jié)果需要小心
在大樣本情況下,總能把與假設(shè)值的任何細(xì)微差別都能查出來(lái),即使這種差別幾乎沒有任何實(shí)際意義
12.在實(shí)際檢驗(yàn)中,不要刻意追求“統(tǒng)計(jì)上的”顯著性,也不要把統(tǒng)計(jì)上的顯著性與實(shí)際意義上的顯著性混同起來(lái)
n一個(gè)在統(tǒng)計(jì)上顯著的結(jié)論在實(shí)際中卻不見得很重要,也不意為著就有實(shí)際意義
六、參數(shù)估計(jì)
(一)點(diǎn)估計(jì)
用樣本的估計(jì)量直接作為總體參數(shù)的估計(jì)值
2. 缺點(diǎn):沒有給出估計(jì)值接近總體參數(shù)程度的信息,它與真摯的誤差、估計(jì)可靠性怎么樣無(wú)法知道。區(qū)間估計(jì)可以彌補(bǔ)這種不足。
點(diǎn)估計(jì)的方法有矩估計(jì)法、順序統(tǒng)計(jì)量法、最大似然法、最小二乘法等
(二) 區(qū)間估計(jì)
在點(diǎn)估計(jì)的基礎(chǔ)上,給出總體參數(shù)估計(jì)的一個(gè)區(qū)間范圍,該區(qū)間由樣本統(tǒng)計(jì)量加減抽樣誤差而得到的。
根據(jù)樣本統(tǒng)計(jì)量的抽樣分布能夠?qū)颖窘y(tǒng)計(jì)量與總體參數(shù)的接近程度給出一個(gè)概率度量。
(三)置信水平
將構(gòu)造置信區(qū)間的步驟重復(fù)很多次,置信區(qū)間包含總體參數(shù)真值的次數(shù)所占的比例稱為置信水平
表示為 (1 - a% )
常用的置信水平值有 99%, 95%, 90%;相應(yīng)的 a 為0.01,0.05,0.10
(四)置信區(qū)間
ü 由樣本統(tǒng)計(jì)量所構(gòu)造的總體參數(shù)的估計(jì)區(qū)間稱為置信區(qū)間;
ü 統(tǒng)計(jì)學(xué)家在某種程度上確信這個(gè)區(qū)間會(huì)包含真正的總體參數(shù),所以給它取名為置信區(qū)間
ü 用一個(gè)具體的樣本所構(gòu)造的區(qū)間是一個(gè)特定的區(qū)間,我們無(wú)法知道這個(gè)樣本所產(chǎn)生的區(qū)間是否包含總體參數(shù)的真值,我們只能是希望這個(gè)區(qū)間是大量包含總體參數(shù)真值的區(qū)間中的一個(gè),但它也可能是少數(shù)幾個(gè)不包含參數(shù)真值的區(qū)間中的一個(gè)
置信區(qū)間的表述:
總體參數(shù)的真值是固定的,而用樣本構(gòu)造的區(qū)間則是不固定的,因此置信區(qū)間是一個(gè)隨機(jī)區(qū)間,它會(huì)因樣本的不同而變化,而且不是所有的區(qū)間都包含總體參數(shù)
實(shí)際估計(jì)時(shí)往往只抽取一個(gè)樣本,此時(shí)所構(gòu)造的是與該樣本相聯(lián)系的一定置信水平(比如95%)下的置信區(qū)間。我們只能希望這個(gè)區(qū)間是大量包含總體參數(shù)真值的區(qū)間中的一個(gè),但它也可能是少數(shù)幾個(gè)不包含參數(shù)真值的區(qū)間中的一個(gè)
當(dāng)抽取了一個(gè)具體的樣本,用該樣本所構(gòu)造的區(qū)間是一個(gè)特定的常數(shù)區(qū)間,我們無(wú)法知道這個(gè)樣本所產(chǎn)生的區(qū)間是否包含總體參數(shù)的真值,因?yàn)樗赡苁前傮w均值的區(qū)間中的一個(gè),也可能是未包含總體均值的那一個(gè)
一個(gè)特定的區(qū)間總是“包含”或“絕對(duì)不包含”參數(shù)的真值,不存在“以多大的概率包含總體參數(shù)”的問(wèn)題
置信水平只是告訴我們?cè)诙啻喂烙?jì)得到的區(qū)間中大概有多少個(gè)區(qū)間包含了參數(shù)的真值,而不是針對(duì)所抽取的這個(gè)樣本所構(gòu)建的區(qū)間而言的
使用一個(gè)較大的置信水平會(huì)得到一個(gè)比較寬的置信區(qū)間,而使用一個(gè)較大的樣本則會(huì)得到一個(gè)較準(zhǔn)確(較窄)的區(qū)間。直觀地說(shuō),較寬的區(qū)間會(huì)有更大的可能性包含參數(shù)
但實(shí)際應(yīng)用中,過(guò)寬的區(qū)間往往沒有實(shí)際意義
區(qū)間估計(jì)總是要給結(jié)論留點(diǎn)兒余地
影響置信區(qū)間寬度的因素:
1.總體數(shù)據(jù)的離散程度,用 s 來(lái)測(cè)度;2.樣本容量;3. 置信水平 (1- a),影響 zα/2 的大小
(五) 參數(shù)估計(jì)標(biāo)準(zhǔn):
無(wú)偏性:估計(jì)量抽樣分布的數(shù)學(xué)期望等于被估計(jì)的總體參數(shù)
有效性:對(duì)同一總體參數(shù)的兩個(gè)無(wú)偏點(diǎn)估計(jì)量,有更小標(biāo)準(zhǔn)差的估計(jì)量更有效
一致性:隨著樣本容量的增大,估計(jì)量的值越來(lái)越接近被估計(jì)的總體參數(shù)
七、數(shù)據(jù)特征
(一)集中趨勢(shì):表明同類現(xiàn)象在一定時(shí)間、地點(diǎn)條件下,所達(dá)到的一般水平與大量單位的綜合數(shù)量特征,有以下3個(gè)特點(diǎn):
1. 用一個(gè)代表數(shù)值綜合反映個(gè)體某種標(biāo)志值的一般水平。
2. 將個(gè)體標(biāo)志值之間的差異抽象掉了。
3. 計(jì)量單位與標(biāo)志值的計(jì)量單位一致。
集中趨勢(shì)
1. 一組數(shù)據(jù)向其中心值靠攏的傾向和程度
2. 測(cè)度集中趨勢(shì)就是尋找數(shù)據(jù)水平的代表值或中心值
3. 不同類型的數(shù)據(jù)用不同的集中趨勢(shì)測(cè)度值
4. 低層次數(shù)據(jù)的測(cè)度值適用于高層次的測(cè)量數(shù)據(jù),但高層次數(shù)據(jù)的測(cè)度值并不適用于低層次的測(cè)量數(shù)據(jù)
集中趨勢(shì)的作用:
比較若干總體的某種標(biāo)志數(shù)值的平均水平
研究總體某種標(biāo)志數(shù)值的平均水平在時(shí)間上的變化
分析社會(huì)經(jīng)濟(jì)現(xiàn)象的依存關(guān)系
研究和評(píng)價(jià)事物優(yōu)劣的數(shù)量指標(biāo)
計(jì)算和估算其他重要的經(jīng)濟(jì)指標(biāo)
(二)離中趨勢(shì):
數(shù)據(jù)分布的另一個(gè)重要特征
反映各變量值遠(yuǎn)離其中心值的程度(離散程度)
從另一個(gè)側(cè)面說(shuō)明了集中趨勢(shì)測(cè)度值的代表程度
不同類型的數(shù)據(jù)有不同的離散程度測(cè)度值
離中趨勢(shì)度量的目的:
描述總體內(nèi)部差異程度;衡量和比較均值指標(biāo)的代表性高低;為抽選樣本單位數(shù)提供依據(jù)
區(qū)別與聯(lián)系:
區(qū)別:集中趨勢(shì)是對(duì)頻數(shù)分布資料的集中狀況和平均水平的綜合測(cè)度;是一組數(shù)據(jù)向其中心值靠攏的傾向和程度;測(cè)度集中趨勢(shì)就是尋找數(shù)據(jù)水平的代表值或中心值。離中趨勢(shì)是對(duì)頻數(shù)分布資料的差異程度和離散程度的測(cè)度,用來(lái)衡量集中趨勢(shì)所測(cè)數(shù)據(jù)的代表性,或者反應(yīng)變量值的穩(wěn)定性與均勻性;是用來(lái)描述總體內(nèi)部差異程度及衡量和比較均值指標(biāo)的代表性高低。偏度是用來(lái)反應(yīng)變量數(shù)列分布偏斜程度的指標(biāo),有對(duì)稱分布和非對(duì)稱分布,非對(duì)稱分布也即為偏態(tài)分布,包括左偏分布和右偏分布。峰度是用來(lái)反應(yīng)變量數(shù)列曲線頂端尖峭或扁平程度的指標(biāo)。
聯(lián)系:為了反面描述研究對(duì)象的情況,僅僅用集中趨勢(shì)方法來(lái)測(cè)度集中性和共性是不夠的,還要用離散趨勢(shì)方法來(lái)測(cè)度其離散性和差異性,因此,而這需要結(jié)合使用。集中趨勢(shì)和離中趨勢(shì)是變量數(shù)列分布的兩個(gè)重要特征,但要全面了解變量數(shù)列分布的特點(diǎn),還需要知道數(shù)列的形狀是否對(duì)稱、偏斜程度以及分布的扁平程度等。偏度和峰度就是從分布特征作進(jìn)一步的描述。
八、數(shù)據(jù)質(zhì)量
1. 數(shù)據(jù)的誤差:(1)抽樣誤差;
a、 在用樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)推斷時(shí)所產(chǎn)生的誤差(樣本統(tǒng)計(jì)量與相應(yīng)總體參數(shù)之間的偏差)
b、由于抽樣的隨機(jī)性所帶來(lái)的誤差
c、 影響抽樣誤差的大小的因素:抽樣方法;樣本量的大小;總體的變異性
(2) 非抽樣誤差(抽樣框誤差;回答誤差;無(wú)回答誤差;調(diào)查員誤差)
a、 調(diào)查過(guò)程中由于調(diào)查者和被調(diào)查者的人為因素所造成的誤差(除抽樣誤差之外的,由于其他原因造成的樣本觀察結(jié)果與總體真值之間的差異)
b、理論上可以消除
c、 存在于所有的調(diào)查之中:概率抽樣,非概率抽樣,全面性調(diào)查
(3) 誤差的控制
a、 抽樣誤差可計(jì)算和控制
b、非抽樣誤差的控制:調(diào)查員的挑選;調(diào)查員的培訓(xùn);督導(dǎo)員的調(diào)查專業(yè)水平:調(diào)查過(guò)程控制(調(diào)查結(jié)果進(jìn)行檢驗(yàn)、評(píng)估;現(xiàn)場(chǎng)調(diào)查人員進(jìn)行獎(jiǎng)懲的制度)
(4)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的要求;
1. 精 度:最低的抽樣誤差或隨機(jī)誤差
2. 準(zhǔn) 確 性:最小的非抽樣誤差或偏差
3. 關(guān) 聯(lián) 性:滿足用戶決策、管理和研究的需要
4. 及 時(shí) 性:在最短的時(shí)間里取得并公布數(shù)據(jù)
5. 一 致 性:保持時(shí)間序列的可比性
6. 最低成本:以最經(jīng)濟(jì)的方式取得數(shù)據(jù)
九、統(tǒng)計(jì)數(shù)據(jù)
對(duì)現(xiàn)象進(jìn)行測(cè)量的結(jié)果;不是指單個(gè)的數(shù)字,而是由多個(gè)數(shù)據(jù)構(gòu)成的數(shù)據(jù)集;不僅僅是指數(shù)字,它可以是數(shù)字的,也可以是文字的
分類:按計(jì)量
分類數(shù)據(jù)(categorical data)
只能歸于某一類別的非數(shù)字型數(shù)據(jù)
對(duì)事物進(jìn)行分類的結(jié)果,數(shù)據(jù)表現(xiàn)為類別,用文字來(lái)表述
順序數(shù)據(jù)(rank data)
只能歸于某一有序類別的非數(shù)字型數(shù)據(jù)
對(duì)事物類別順序的測(cè)度,數(shù)據(jù)表現(xiàn)為類別,用文字來(lái)表述
數(shù)值型數(shù)據(jù)(metric data)
按數(shù)字尺度測(cè)量的觀察值
結(jié)果表現(xiàn)為具體的數(shù)值,對(duì)事物的精確測(cè)度
按收集方法
觀測(cè)的數(shù)據(jù)(observational data) :
在沒有對(duì)事物人為控制的條件下而得到的,通過(guò)調(diào)查或觀測(cè)而收集到的數(shù)據(jù)
試驗(yàn)的數(shù)據(jù)(experimental data) :在試驗(yàn)中控制試驗(yàn)對(duì)象而收集到的數(shù)據(jù)
按時(shí)間狀況
1. 時(shí)間序列數(shù)據(jù)(time series data)
在不同時(shí)間上收集到的數(shù)據(jù)
描述現(xiàn)象隨時(shí)間變化的情況
2截面數(shù)據(jù)(cross-sectional data)
在相同或近似相同的時(shí)間點(diǎn)上收集的數(shù)據(jù)
描述現(xiàn)象在某一時(shí)刻的變化情況
十、統(tǒng)計(jì)學(xué)性質(zhì)
統(tǒng)計(jì)學(xué): 收集、分析、表述和解釋數(shù)據(jù)的科學(xué) 1.數(shù)據(jù)搜集:取得數(shù)據(jù);2.數(shù)據(jù)分析:分析數(shù)據(jù);3.數(shù)據(jù)表述:圖表展示數(shù)據(jù);4.數(shù)據(jù)解釋:結(jié)果的說(shuō)明
(一)現(xiàn)代統(tǒng)計(jì)學(xué)的性質(zhì)可歸納為如下幾個(gè)方面:
1.統(tǒng)計(jì)學(xué)是方法論科學(xué),而不是實(shí)質(zhì)性科學(xué)
它研究的是事物普遍存在的數(shù)量關(guān)系的計(jì)量和數(shù)量分析的方法,并通過(guò)數(shù)量分析來(lái)認(rèn)識(shí)特定事物的內(nèi)在規(guī)律性,但不是研究規(guī)律本身。
2.統(tǒng)計(jì)學(xué)的應(yīng)用范圍不局限于社會(huì)科學(xué),也不局限于自然科學(xué)。
由于其方法來(lái)自于社會(huì)科學(xué)也來(lái)自于自然科學(xué),所以它可以用于社會(huì)現(xiàn)象也可以用于自然現(xiàn)象,即統(tǒng)計(jì)學(xué)是一種通用的方法論科學(xué)。同時(shí)統(tǒng)計(jì)學(xué)也不是依服于實(shí)質(zhì)性科學(xué)而存在的方法論,它是獨(dú)立的方法論科學(xué)。
3.統(tǒng)計(jì)學(xué)的研究對(duì)象既包括確定性現(xiàn)象的總體數(shù)量關(guān)系,也包括隨機(jī)現(xiàn)象的總體數(shù)量關(guān)系,即統(tǒng)計(jì)學(xué)是研究各類事物總體數(shù)據(jù)的方法論科學(xué)。
統(tǒng)計(jì)學(xué)是為探索事物數(shù)量所反映的客觀規(guī)律性,而對(duì)事物總體的大量數(shù)據(jù)進(jìn)行收集、整理和分析研究的方法論科學(xué)。它以大量的客觀事物的量化描述、特征推算及關(guān)系分析為其主要研究對(duì)象。
(二)描述統(tǒng)計(jì)學(xué)與推斷統(tǒng)計(jì)學(xué):
描述統(tǒng)計(jì)學(xué)(Descriptive Statistics)研究如何取得反映客觀現(xiàn)象的數(shù)據(jù),并通過(guò)圖表形式對(duì)所收集的數(shù)據(jù)進(jìn)行加工處理和顯示,進(jìn)而通過(guò)綜合概括與分析得出反映客觀現(xiàn)象的規(guī)律性數(shù)量特征。內(nèi)容包括統(tǒng)計(jì)數(shù)據(jù)的收集方法、數(shù)據(jù)的加工處理方法、數(shù)據(jù)的顯示方法、數(shù)據(jù)分布特征的概括與分析方法等。
推斷統(tǒng)計(jì)學(xué)(1nferential Statistics)則是研究如何根據(jù)樣本數(shù)據(jù)去推斷總體數(shù)量特征的方法,它是在對(duì)樣本數(shù)據(jù)進(jìn)行描述的基礎(chǔ)上,對(duì)統(tǒng)計(jì)總體的未知數(shù)量特征做出以概率形式表述的推斷。
描述統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué)的劃分,一方面反映了統(tǒng)計(jì)方法發(fā)展的前后兩個(gè)階段,同時(shí)也反映了應(yīng)用統(tǒng)計(jì)方法探索客觀事物數(shù)量規(guī)律性的不同過(guò)程。
統(tǒng)計(jì)研究過(guò)程的起點(diǎn)是統(tǒng)計(jì)數(shù)據(jù),終點(diǎn)是探索出客觀現(xiàn)象內(nèi)在的數(shù)量規(guī)律性。在這一過(guò)程中,如果搜集到的是總體數(shù)據(jù)(如普查數(shù)據(jù)),則經(jīng)過(guò)描述統(tǒng)計(jì)之后就可以達(dá)到認(rèn)識(shí)總體數(shù)量規(guī)律性的目的了;如果所獲得的只是研究總體的一部分?jǐn)?shù)據(jù)(樣本數(shù)據(jù)),要找到總體的數(shù)量規(guī)律性,則必須應(yīng)用概率論的理論并根據(jù)樣本信息對(duì)總體進(jìn)行科學(xué)的推斷。
顯然,描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)是統(tǒng)計(jì)方法的兩個(gè)組成部分。描述統(tǒng)計(jì)是整個(gè)統(tǒng)計(jì)學(xué)的基礎(chǔ),推斷統(tǒng)計(jì)則是現(xiàn)代統(tǒng)計(jì)學(xué)的主要內(nèi)容。
【統(tǒng)計(jì)學(xué)知識(shí)要點(diǎn)】相關(guān)文章:
小升初的相關(guān)知識(shí)要點(diǎn)06-29
統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)匯總08-26
小升初語(yǔ)文知識(shí)要點(diǎn)復(fù)習(xí)06-28
小升初語(yǔ)文知識(shí)要點(diǎn)匯總06-27