主题四机率分布陈陆辉政治大学选研中心研究员兼主任.ppt
2019/3/21,公共管理與政治學研究方法,1,主題四:機率分佈 陳陸輝 政治大學選研中心 研究員兼主任,2019/3/21,公共管理與政治學研究方法,2,講授主題,壹、淺說 貳、間斷與連續變數的機率分佈 參、隨機機率分佈 肆、以樣本分佈說明統計量的變化 伍、樣本平均數的分佈 陸、母體、樣本資料與樣本分佈 柒、本章小結,2019/3/21,公共管理與政治學研究方法,3,本週重點,賭王與機率分佈 年輕的統計理論與資深的機率論 統計最基本的分佈正態分佈 抽樣的基本原理與推論應用抽樣分佈,2019/3/21,公共管理與政治學研究方法,4,壹、淺說,機率(probability): 在隨機樣本或是隨機實驗中,在反覆抽樣或是實驗的過程裡,特定事件/結果出現的比例 擲骰子 抽撲克牌,2019/3/21,公共管理與政治學研究方法,5,介紹幾個基本概念,A.隨機實驗 (Random Experiment) B.基本結果(Elementary Outcome) C.樣本空間(Sample Space) D.事件(Event Set),2019/3/21,公共管理與政治學研究方法,6,A.隨機實驗 (Random Experiment),這是一種過程,你會知道有幾種特定的結果會出現,不過,不能確定哪一個結果會出現,也無法精確預測。 隨機實驗可以重複進行,經過累積一定的觀察數量後,可以找出一些統計規則。 例如,你擲一個骰子,你不確定會出現幾點,但是,你知道其中一些基本原則。同理,可以推論到擲兩顆骰子或是抽一張撲克牌。,2019/3/21,公共管理與政治學研究方法,7,B.基本結果(Elementary Outcome),隨機實驗可能出現的結果。 例如, 擲一個骰子的基本結果是從1到6。 抽一張樸克牌出現紅心的機會是四分之一,2019/3/21,公共管理與政治學研究方法,8,C.樣本空間(Sample Space),列出隨機實驗中的所有可能結果。例如,擲一個骰子的樣本空間是 S=1,2,3,4,5,6 通常用S來表示之。,2019/3/21,公共管理與政治學研究方法,9,D. 事件(Event Set),樣本空間的部分集合稱之為事件。 事件可以只包括一個基本結果(簡單事件simple event)或是兩個或兩個以上的基本結果(混合事件composite event)。,2019/3/21,公共管理與政治學研究方法,10,機率,2008年選舉結果 馬英九約得765.9萬票/謝長廷約得544.5萬票 馬勝221萬票 馬得票率佔有效票58.45/投票率76.33 如果用出口名調,得到結果會如何?,2019/3/21,公共管理與政治學研究方法,11,主觀(subjective)與客觀(objective)機率,選科系是依靠主觀還是客觀機率? 找工作是依靠主觀還是客觀機率? 妳可以實驗多少次? 長期客觀的機率有其困難 主觀機率 依據過去的資訊(事前機率),推測事後機率 貝氏統計Bayesian statistics,2019/3/21,公共管理與政治學研究方法,12,基本機率規則機率,P(A): A事件發生的機率 P(not A):非A事件發生的機率 (彼此互斥,窮盡全體) 如果事件A與事件B彼此獨立 P(A or B)= =P(A) + P(B) 如果事件A與事件B為兩個可能結果 P(A and B)= =P(A) * P(B given A) 如果事件A與事件B彼此獨立 P(A and B)= P(A) * P(B),2019/3/21,公共管理與政治學研究方法,13,婚姻與快樂,2019/3/21,公共管理與政治學研究方法,14,各種機率,P(未婚) P(很快樂)+P(還快樂與不快樂) P(已婚且很快樂)=P(已婚)*P(已婚中很快樂) P(U)1-P(M) P(HN)= P(H)+P(N)如果兩個事件獨立 P(MH)= P(M)P(HM),2019/3/21,公共管理與政治學研究方法,15,各種百分比,總百分比:total %; join %,2019/3/21,公共管理與政治學研究方法,16,直欄百分比(column %),2019/3/21,公共管理與政治學研究方法,17,橫列百分比(row %),2019/3/21,公共管理與政治學研究方法,18,各種概念,交集: P(AB) 聯集:P(AB) 條件機率: P(AB) 獨立事件:對各種機率計算的影響,2019/3/21,公共管理與政治學研究方法,19,貳、間斷與連續變數的機率分佈,間斷變數與連續變數之區別,2019/3/21,公共管理與政治學研究方法,20,一、間斷變數的機率分佈,2019/3/21,公共管理與政治學研究方法,21,間斷機率分佈,P(y=4)=? P(y4)=? P(y=3.5)=? 用直方圖表示,2019/3/21,公共管理與政治學研究方法,22,二、連續機率分佈圖,2019/3/21,公共管理與政治學研究方法,23,二、連續機率分佈,P(y10)=? P(30y60)=?,2019/3/21,公共管理與政治學研究方法,24,機率分佈的母數,如果表4.1是母體值,我們反覆抽樣的結果,會知道 家中理想子女數為1的機率是:P(y=1)=? 對機率的兩個重要的描述母數(參數)為 平均數 標準差,2019/3/21,公共管理與政治學研究方法,25,間斷變數的平均數計算方式,此一數值又稱為期望值,以E(y)表示 變異數計算公式 計算理想子女數的平均數與標準差,2019/3/21,公共管理與政治學研究方法,26,參、正態機率分佈,2019/3/21,公共管理與政治學研究方法,27,參、正態分佈的幾個特性,1.平均數、中位數與眾數是同值,而將正態曲線分成對稱的兩個部分,各佔總分布的一半。 2.分布是對稱的,一旦將本分布從中間對折,兩邊會彼此重疊。 3.分布的兩端(尾巴),離平均數愈遠,會接近X-軸,不過,不會接觸到X-軸-總是會有發生的機率,不過,機率很低就是了。,2019/3/21,公共管理與政治學研究方法,28,參、正態分佈的幾個特性,當觀察值為常態分佈時,在平均數 正負一個標準差的區間之內,涵蓋了68%的所有觀察值 正負兩個標準差的區間之內,包括了95%的所有觀察值, 正負三個標準差的區間之內,包括了99.7%的所有觀察值。,2019/3/21,公共管理與政治學研究方法,29,兩個正態分佈圖,2019/3/21,公共管理與政治學研究方法,30,標準化分數Z-Score,2019/3/21,公共管理與政治學研究方法,31,運用正態分配表,2019/3/21,公共管理與政治學研究方法,32,運用正態分配表(區域B或C的比例),2019/3/21,公共管理與政治學研究方法,33,運用正態分配表(區域B或C的比例),2019/3/21,公共管理與政治學研究方法,34,運用常態分配表P(-1Z1),2019/3/21,公共管理與政治學研究方法,35,運用常態分配表P(-2Z2),2019/3/21,公共管理與政治學研究方法,36,運用常態分配表P(-3Z3),2019/3/21,公共管理與政治學研究方法,37,運用常態分配表找出各區的比例,2019/3/21,公共管理與政治學研究方法,38,找出以下區域的百分比,P(-1.96Z),2019/3/21,公共管理與政治學研究方法,39,用Z-scores找出機率或是特定值,特定值需要找出一定機率,先轉換成z-score再用表找出該區域的機率 有特定機率、百分位或是比例希望找出特定值,先將機率轉換成z-score,再用 y=+z,2019/3/21,公共管理與政治學研究方法,40,兩個練習,4.3.一個IQ考試的平均數為100,標準差為16 找出99百分位應該要考多少分 Assume that verbal SAT scores approximate a normal distribution with a mean of 430 and a standard deviation of 100. What proportion of students verbal SAT scores is either less than 350 or more than 500.,2019/3/21,公共管理與政治學研究方法,41,標準常態分佈,所有常態分佈,都可以轉換成標準常態分數。他的平均數是0,標準差是1。 我們可以先知道標準分數,然後找出比這個分數高/低者,佔所有分布的比例 另外一個是,我們知道一定的比例後,要找出這個標準化分數 我們將標準常態分布的整個區域,定為1或是100%,一半就是0.5或是50%,2019/3/21,公共管理與政治學研究方法,42,標準正態分佈圖,2019/3/21,公共管理與政治學研究方法,43,肆、以抽樣分佈說明統計量的變化,以出口民調預測選舉結果 模擬估計過程 抽樣分佈(sampling distribution) 統計量所可能獲得數值的機率分佈,2019/3/21,公共管理與政治學研究方法,44,伍、樣本平均數的抽樣分佈,我們想知道每年家庭食品支出花費,2019/3/21,公共管理與政治學研究方法,45,食品支出的實例,2019/3/21,公共管理與政治學研究方法,46,食品支出的實例(N=25),2019/3/21,公共管理與政治學研究方法,47,食品支出的實例(N=100),2019/3/21,公共管理與政治學研究方法,48,樣本數對抽樣分佈與精確度的影響,2019/3/21,公共管理與政治學研究方法,49,標準誤(standard error),平均數抽樣分佈的標準差稱之,2019/3/21,公共管理與政治學研究方法,50,抽樣分佈:常態分佈與中央極限定理,在統計上有個中央極限定理,它的內容是:在樣本數足夠大的情況下,如果把這個平均數排起來,它們會形成正態分布,而這些樣本平均數的平均數會等於,這些樣本平均數的標準差會等於,2019/3/21,公共管理與政治學研究方法,51,不同母體分佈的抽樣分佈,不論母體的分佈如何,當樣本數趨近無限大,樣本平均數的平均數分佈會趨近正態分佈。 原始母體分佈情況與樣本大小關係 樣本平均數抽樣分佈的標準誤 母體平均數的左右三個標準誤內包含樣本平均數,2019/3/21,公共管理與政治學研究方法,52,不同母體分佈的抽樣分佈,2019/3/21,公共管理與政治學研究方法,53,陸、母體、樣本資料與樣本分佈,母體分佈:據以抽樣的對象,通常是未知 樣本分佈:可觀察的抽樣結果 可計算樣本平均數與標準差 樣本數愈大,樣本平均數會愈接近母體平均數 抽樣分佈:描述固定樣本數下,反覆抽樣下的樣本分佈情況 樣本數大小:n30 統計推論中抽樣分佈的關鍵角色,2019/3/21,公共管理與政治學研究方法,54,柒、本章小結,機率分佈:區間、總和、符號 機率分佈的平均數、標準差 常態分佈與標準常態分佈 標準化分數 抽樣分佈 抽樣平均數的平均數分佈,也有標準差 中央極限定理,2019/3/21,公共管理與政治學研究方法,55,提問時間,一、不清楚之處 二、如何運用,