作者 kh749 (ReturnTo)
標題 [討論] 民調統計之亂---最終章
時間 Wed Nov 22 02:25:28 2023


小弟看到版上很多人對民調統計很有興趣,
剛好這幾天我有一點粗淺的研究成果, 提出來和大家分享一下.
如果有錯還請不要見怪.

先講結論:

1. 如果沒有每一份民調原始數據, 無從判斷是3:3或是5:1,
2. 如果在某一份民調中, 柯侯和侯柯的正相關性r高達0.8,
   (這個r值每份民調都不一樣)
   那麼民調之中柯侯只要領先侯柯2%,
   統計上就代表柯侯顯著勝過侯柯

3. 如果r接近1, 那誤差範圍=0.001%, 柯侯與侯柯誰多贏一票就是贏了 ,
   所以民眾黨用原始數據稱六份民調當中他們贏五份, 並非全無道理.

以下請看詳細解說:
--------------------------------------------------
p是支持率, n是樣本數
var(p) = p(1-p)/n, 開根號再乘以1.96就是抽樣誤差 (sqrt(var(p)*1.96))

如果只是粗略估計,
一般把p用0.5帶入, (0.5*0.5和0.4*0.6也差不多).
當n=1068時, 根號(var(p))*1.96 = 3%

比較兩位候選人支持率p1,p2
如果選用p1-p2這個值來做決策,

var(p1-p2) = Var(p1)+Var(p2) - 2*r*根號(var(p1)*var(p2))
r是大家高中都學過的相關係數-1<r<1

如果粗估p1=p2=p, 那麼var(p1)=var(p2)
var(p1-p2) = 2*var(p) - 2*r*var(p)

(1) -1<r<0 適用於選舉, 一個人投給A就不能投給B, 相關性<0
(1.1)  當r=-1時,
適用情況: 在一對一的選舉中, 一人沒有第三種選項
例如在新加坡, 投票是全民義務, 不能不投票,
可以選擇回答投票給李某p1, 或是選擇回答投給黃某p2. 沒有第三個選擇

也就是p1和p2完全負相關, r=-1
var(p1-p2)=4*var(p), 開根號之後得到誤差是原本的2倍,也就是6%
也就是李某要勝過黃某6%才算超過誤差範圍.

(1.2) r約為-0.5
因此如果在台灣, (1.1)的假設就不適用
一個人除了國民黨p1和民進黨p2以外,
還有第三種選擇,那就是投票日當天選擇出去玩, 兩邊都不投票.

所以台灣選舉的r約等於-0.5, 中度負相關.
var(p1-p2) = 3*var(p), 開根號之後是原本的1.73倍=1.73*3=5.3%
這也就是不少民調專家,政黨操盤手所說,
一對一選舉要贏5%以上才算是贏!
例如以下這篇報導:
國民黨立委提名/現任者民調贏逾5% 才徵召
https://news.ltn.com.tw/news/politics/paper/863837
國民黨立委提名/現任者民調贏逾5% 才徵召 - 政治 - 自由時報電子報
[圖]
國民黨立委輔選策略委員會昨天首度開會決定,以有意連任的現任區域立委為主的第一梯次提名作業,最遲四月中旬之前完成,並決議將成立一個「幹部評鑑委員會」,現任立委須先通過評鑑,才有資格爭取提名或獲徵召參選。國民黨文傳會主委林奕華轉述指出,第一梯次提名分為以下兩種情形: ...

 


(2) 0<r<1適用於這次柯侯與侯柯的民調, 一個人可能會同時回答支持柯侯與侯柯
(2.1)當r=0, 也就是p1與p2二者獨立的時候,
如果一個回答柯侯的人, 他沒有機會影響侯柯的支持度;反之亦然.
那麼p1,p2的相關性可能就很低, r接近0.

例如聯合報的這份問卷: Q7和Q8不會問同一個人.
【Q7及Q8隨機呈現】
7.如果郭台銘最後不參選,藍白整合是柯文哲當正,
  請問在【隨機提示選項1-2】組合中,
  您會支持那一組擔任總統副總統?
(1)柯文哲搭配侯友宜[柯侯配]
(2)賴清德搭配蕭美琴[賴蕭配]
(7)都不支持/支持其他人
(8)未決定、無意見或拒答

8.如果郭台銘最後不參選,藍白整合是侯友宜當正,
請問在【隨機提示選項1-2】組合中,
您會支持那一組擔任總統副總統?
(1)侯友宜搭配柯文哲[侯柯配]
(2)賴清德搭配蕭美琴[賴蕭配]
(7)都不支持/支持其他人
(8)未決定、無意見或拒答

當r約為0時,
var(p1-p2) = 2*var(p), 開根號等於1.414*3% = 4.2%
也就是柯侯要贏過侯柯4.2%才算柯侯贏

有人會問(2.1)和(1.1)有什麼不同?
(2.1)的每一個人回答問題都是獨立自主決定的,不受他人影響,(r接近0)
然而(1.1)之中, 投給李某的人類似於同時投了反對票給黃某,因此r=-1
這點滿有趣的, 有興趣的讀者可以自行研究.



(2.2) 承(2.1) 0.8<r<1
民調公司也可能設計以下問卷

以下是美麗島十月國政民調的問卷:
[Q15與Q16由電腦隨機排序]
15、請問,如果明年大選只有2組參選,1組是
國民黨侯友宜和民眾黨柯文哲合作的「侯柯配」,
另1組是民進黨賴清德和蕭美琴的「賴蕭配」,
您可能會投給哪1組?【關鍵字串由電腦隨機排序】
(1)侯柯配46.1% (2)賴蕭配36.8% (3)不投票/投廢票8.5% (4)未明確回答8.6%

16、請問,如果明年大選只有2組參選,1組是
民眾黨柯文哲和國民黨侯友宜合作的「柯侯配」,
另1組是民進黨賴清德和蕭美琴的「賴蕭配」,
您可能會投給哪1組?【關鍵字串由電腦隨機排序】
(1)柯侯配47.4% (2)賴蕭配35.3% (3)不投票/投廢票7.2% (4)未明確回答10.1%

如果類似於以上的問卷,一個回答柯侯的人有很高的機率同時也回答侯柯
因此p1和p2是高度正相關, r=0.8以上
如果假設r=0.8, var(p1-p2) = 2*var(p) - 2*r*var(p)
var(p1-p2) = 0.4*(var(p)), 開根號後是原本的0.65倍, 不但沒增加, 還縮小了
當n=1068時, 這個誤差是3*0.65 = 2%左右,

這個含意是:
"如果柯侯和侯柯的正相關性高達0.8,
那麼民調之中柯侯只要領先侯柯2%,
統計上就代表柯侯顯著勝過侯柯"

(2.3) 如果r=1, 也就是所有回答柯侯的人同時都回答侯柯, 無一例外.
var(p1-p2) = 2*var(p) - 2*r*var(p) = 0
誤差為0的含意是, 只要柯侯高過侯柯1票, 例如40.05%比40%,
那麼柯侯統計上就顯著勝過侯柯
問題是這是不可能發生的, 因為r=1時,所有投給柯侯的人同時都投給侯柯.

因此, 總言之, r越是接近1, 誤差就越接近0
柯侯需要領先侯柯的%數就越低.
但結果仍需視每份民調不同的r值而定.

備註1. 11/17號民眾黨曾經發布一個消息,
       在談判當天晚上六點以前要上傳原始資料,
       目的很可能就是要對各家民調的相關性r進行檢查.

備註2. 民眾黨記者會快結束時, 陳智菡回答記者時曾說
       "變異值很高, 讓3%已經很多"之類的話,
       黃珊珊也提到,"變異值是1.3幾, 乘以2絕對小於3%"
       記者當然聽不懂.
       她們就是在說明本文中(r=0.9)的情況.
       把r=0.9帶入2*var(p) - 2*r*var(p), 開根號再乘以1.96
       根號(0.2*0.5^2/1086)*1.96
       算出來剛好是1.34% 正是黃珊珊口中"1.3幾"

       我沒有政治立場, 不過以我的統計學專長,
       我認為民眾黨還是懂統計的.

參考資料:
1.Mathematical Statistics, Rice 3rd 11.3
2.林澤民教授文章 https://blog.udn.com/nilnimest/24057891

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.224.243.40 (臺灣)
※ 作者: kh749 2023-11-22 02:25:28
※ 文章代碼(AID): #1bNFOQE2 (HatePolitics)
※ 文章網址: https://www.ptt.cc/bbs/HatePolitics/M.1700591130.A.382.html
※ 同主題文章:
[討論] 民調統計之亂---最終章
11-22 02:25 kh749
Supasizeit: 智菡報氣象的 應該有學統計1F 203.204.194.135 台灣 11/22 02:27
Greatgenius: 蔡正元就講了誤差的誤差很小
這幾個還要點臉的不會硬拗科學2F 101.12.42.17 台灣 11/22 02:29
henryliao: 問題是民調有年齡市話手機會加權過4F 114.42.67.55 台灣 11/22 02:32
miha80425: 人真好 幫忙治療失眠5F 111.252.198.101 台灣 11/22 02:35
ILoveKMT 
ILoveKMT: 跟國民黨合 就是不爽啊6F 101.137.195.78 台灣 11/22 02:43
BlackAndWhit: 感謝兩個小丑提升國民的統計學7F 42.74.111.19 台灣 11/22 02:52
※ 編輯: kh749 (36.224.243.40 臺灣), 11/22/2023 02:59:39
partsex: 這個明明很基礎的統計學啊 怎麼一堆人不會?
兩題互比 卻一直拿單一題的抽樣誤差來當誤差
今天如果是 一題「侯 VS 柯 」做1068份才是正負3%
你今天是
第一題:侯柯 vs  賴蕭
第二題:柯侯 vs 賴蕭
然後 第一題 vs 第二題 那就不會是3%了在兩題高度相關的狀況下
(第一題選賴蕭的 到了第二題多數還是繼續賴蕭)
(第一題選候柯的 到了第二題多數繼續柯侯)
高度正相關 誤差只會縮小8F 36.235.187.213 台灣 11/22 03:02
※ 編輯: kh749 (36.224.243.40 臺灣), 11/22/2023 03:15:57
kh749: 樓上, 那要看原始問卷而定,你看聯合報的r=024F 36.224.243.40 台灣 11/22 03:19
gino12456: 用相關性下去 會計博士會跟你說心中有大我就夠了25F 110.28.81.194 台灣 11/22 03:22
nhk123871192: 嘖嘖嘖27F 27.51.1.112 台灣 11/22 03:38
forb9823018: 問題是協議寫那3位專家判斷啊
https://i.imgur.com/5P1Pw9E.jpg28F 111.248.132.129 台灣 11/22 03:39
[圖]
kh749: 樓上, 法律問題我不懂, 我只懂統計問題.30F 36.224.243.40 台灣 11/22 03:44
diyaworld 
diyaworld: 其實,這幾天民調會不準的最大原因,31F 180.176.140.130 台灣 11/22 03:52
diyaworld: 就是綠營反串仔的比例根本無從計算
diyaworld: 侯柯跟柯侯兩題出現,綠的一定都投賴
diyaworld: ?要確定捏,那2020年韓國瑜,跟2018
diyaworld: 洪秀柱的黨內初選民調,怎麼選可能出
diyaworld: 現成功5成數據,最後陰溝翻車
diyaworld: 所以要預估到底要讓幾趴才是安全消除
diyaworld: 反串仔的干預?這個就真好吵了
diyaworld: 連美麗島都放棄上周五的民調公佈了
afjp: kh749 其實一般人只想知 誰才是對的。
沒結論,有多少會統計...40F 118.163.55.100 台灣 11/22 03:59
SuNnyMooN89: 我還看到另一種直接抓柯侯侯柯出來互比,扣掉賴蕭樣本數,再算誤差範圍,那侯柯就贏麻了,這是正確的嗎42F 1.170.126.220 台灣 11/22 04:04
afjp: 這一個統計題,最有趣的是沒有學校老師背書是題目太難了嗎?46F 118.163.55.100 台灣 11/22 04:06
berryc: 其實不用那麼複雜, 一般人認知就是指兩個數值去比, 然後看這份民調誤差範圍多少就是多少, 柯贏超過才算贏.  結束48F 122.116.89.28 台灣 11/22 04:26

--
作者 kh749 的最新發文:
點此顯示更多發文記錄