看板 Gossiping作者 daviden (daviden)標題 [爆卦]發文門檻研究時間 Thu Oct 4 05:13:59 2018
※註:有電視或媒體有報導者,請勿使用爆卦!
無重大八卦請勿使用此分類,否則視同濫用爆卦鬧板(文章退回、水桶6個月)
未滿30繁體中文字 水桶3個月
先前板上在討論增加發文門檻
我就想,PTT是個公開的平台,所有發文都有紀錄,ID資訊也是公開的
何不做個資料分析,探討這項政策會帶來的效應。
我針對今年7/1到9/19(政策實施前)的所有文章進行爬取,再從ID公開資訊爬取各篇作者
的登入次數
做相關性的研究。
不囉嗦,先上結論
https://imgur.com/BG1h7AP.jpg
把作者分為登入次數<700,與登入次數>700兩組
結果顯示,登入次數少的作者得到的認同度(推 - 噓)顯著較低。被噓文次數顯著較高。
文章討論度(推 + 噓 + 箭頭)則沒有顯著差異。
另外,增設700登入次數的門檻,會使八卦板流失12.37%發文作者,與12.65%文章。
------------------------以下詳細數據與分析方法-------------------------------
我用Python scrapy從網頁板PTT爬取文章
用Python telnet爬取作者登入次數。登入次數是動態的,而我在事後爬取,爬取時間是
9/30
所以與那些作者真正寫文章的時間(7~9月)有最多90次的誤差。這是本研究無可避免的限
制。
https://imgur.com/8TtCeqy.jpg
從流程圖可知,扣除網路因素、文章格式因素導致的爬取失敗,我們已捕捉93.2%作者與
84%文章。資料品質應該夠好了。
接著我們將資料匯入SAS 9.4做統計與資料視覺化。
我們計算每個作者的總發文次數、個人平均推、噓、箭頭次數,個人平均認同度、討論度
。
如下圖,每筆資料為一位作者的總結。
(所以你會看到推文數有小數點,因為那是該作者的個人平均)
https://imgur.com/nXKYh5j.jpg
之後的分析都將以"作者"為單位,而非"文章"。
首先,我們要注意,這個資料非常"偏"(skew)
以發文次數為例
下圖,上半部是我從常態分布模擬出來的樣本,是一個對稱的分布。平均值與中位數很接
近。
下半部是真實資料的作者發文數。平均和中位數差了近8篇文章。
https://imgur.com/gkxGV3V.jpg
這就說明大部分人發文在2篇左右,可是有少數人發了很多篇,把平均拉高了。
這時候如果還用平均數來總結這個資料,就會忽視真正廣大的族群。
因此之後的分析,我們將把重點放在中位數。
再跟大家介紹怎麼看箱型圖(Boxplot)
https://imgur.com/lQZbrEx.jpg
Q1是第一四分位數,也就是有25%的人低於這個數。可以反映出"底層"的情況
Q3是第三四分位數,也就是有75%的人低於這個數。用於反映"中高層"的情況。
下圖呈現登入次數<700與>700兩組的各項數值差距。
可以注意中位數跟平均有很大的落差。這就是先前說的,這份資料很偏。
https://imgur.com/gb8i7a0.jpg
根據Wilcoxon Two-Sample Test(檢驗中位數差異)
兩組在噓文數有顯著差異 (p < 0.0001),在認同度有顯著差異 (p < 0.0001)
也就是說,登入次數<700那組較常被噓,推文 - 噓文的數值也較低。
接著,我們撇開700門檻這個政策,巨觀來看登入次數與文章品質的關係。
首先皮爾森相關係數(Pearson Correlation Coefficients)告訴我們
登入次數與認同度是顯著(p < 0.0001)正相關的(r = 0.05156)。
也就是說,登入越多次,容易拿到更多推(或更少噓)。
把作者以1000次登入為單位,分成6個組別
1~1000
1000~2000
2000~3000
3000~4000
4000~5000
5000+
如下圖
https://imgur.com/hG7HY0W.jpg
https://imgur.com/jpPFHNQ.jpg
可以看到認同度隨登入次數上升
討論度在第一組比較高,之後下降,又上升。
我們知道登入次數<700的組別,其噓文數顯著較高,所以這邊的討論度應該是被"噓"出來
的。
整體而言,認同度與討論度都隨登入次數增加而增加。
值得注意的是,隨登入次數提高,認同度的Q1和中位數只有些許上升,而平均和Q3卻大幅
上升,這表示
其實不管登入次數多少,大多數人的文章並沒有什麼差別。是較右邊的組別,有少數人在
拉高整體素質。
所以作為一介平庸的鄉民,我們也不要太歧視菜鳥。畢竟我們的整體文章品質會好,主要
是來自跟我們同組的神人大大們。
補充各門檻的保留作者比例
https://imgur.com/uKXKXOx.jpg
如果把門檻定在1000,板上會剩下76%作者。
定在2000,則會剩下45%作者。
所以訂高門檻確實可以提高文章認同度,可是同時也會流失許多作者。
同場加映
經濟狀況與文章認同度
https://imgur.com/R89ZhRG.jpg
這讓我很訝異,相關性似乎比登入次數更高...
以後說不定也可以用經濟狀況來定門檻(誤~)
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 129.109.71.70
※ 文章代碼(AID): #1RjJ4PeD (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1538601241.A.A0D.html
→ wuyiulin: 有夠閒給推1F 61.58.87.4 台灣 10/04 05:14
推 sgtpepper: 太長3F 180.177.121.237 台灣 10/04 05:16
推 randy101021: 少惹很多肥宅文就是惹4F 101.15.63.52 台灣 10/04 05:19
推 chivalry70: 結論要更清楚一點方便閱讀5F 114.137.88.83 台灣 10/04 05:19
推 wuyiulin: 懶人包:登入次數越多的作者發文與文章討論度呈正相關6F 61.58.87.4 台灣 10/04 05:20
推 showforce: 不要浪費才能8F 93.117.249.43 荷蘭 10/04 05:21
→ wuyiulin: 但是數據顯示大部份人並沒有因為登入次數獲得更高的發文討論度
反而是靠一些優秀作者在撐9F 61.58.87.4 台灣 10/04 05:21
推 ttping: 推認真(?13F 101.13.245.218 台灣 10/04 05:22
→ wuyiulin: 另外持有P幣數量也與發文討論度呈正相關 非常有趣14F 61.58.87.4 台灣 10/04 05:22
推 wushwush: 推16F 36.230.205.64 台灣 10/04 05:23
推 pujipuji: 哈哈哈哈統計給推17F 129.67.118.224 英國 10/04 05:27
推 L1ON: 看人啦18F 180.217.175.68 台灣 10/04 05:28
→ pujipuji: 會不會有生存者偏差(?)19F 129.67.118.224 英國 10/04 05:28
推 jkkkj123: 所以看起來 提高門檻會有顯著文章數降低 但文章品質跟推文品質並沒與登入次數無正關連性?20F 1.175.81.178 台灣 10/04 05:29
推 doom3: 太長 在八卦版不要發超過二頁好嗎24F 122.121.96.228 台灣 10/04 05:34
推 Benbenyale: 啊就發錢文太多啊 也沒發到家產清空25F 118.169.185.60 台灣 10/04 05:34
推 verakaco: 讚26F 114.137.222.206 台灣 10/04 05:36
推 arcred: 可以順便比較一下IP國籍的推噓比29F 98.248.208.99 美國 10/04 05:41
推 rover10: 這真的浪費才能30F 49.216.146.226 台灣 10/04 05:42
推 iem2000: 窮人沒發文的權益 批踢踢搞貧富歧視(叭叭31F 175.180.249.8 台灣 10/04 05:42
推 lhsieh: 經濟狀況就經驗值相關
就算靠賭盤來的也是經驗32F 31.13.189.90 美國 10/04 05:50
推 spending: 太強了哈哈34F 42.76.215.59 台灣 10/04 05:53
推 ayubabbit: 最後應該是因為有錢常發錢認同度高?35F 36.225.50.178 台灣 10/04 05:54
推 shields5566: 發錢文根本都垃圾36F 114.36.62.105 台灣 10/04 05:57
→ Wand …
推 Wand: 你真的,,,就是杜奕瑾所說的自我成長嗎37F 111.83.1.51 台灣 10/04 06:12
推 kids9995: 很有趣,不過應該要排除發錢溫才能得到更真實的結果38F 114.37.141.128 台灣 10/04 06:13
推 a2654133: 認真給推40F 111.248.22.173 台灣 10/04 06:18
推 fzrpower: 我說那叫推文風格,有事電話給我41F 59.115.87.31 台灣 10/04 06:23
推 arcslam: 推分析42F 180.217.184.166 台灣 10/04 06:28
推 qkenny: 乖乖做研究卻不要浪費才能 XDDD44F 95.91.249.151 德國 10/04 06:37
推 arrenwu: 我不同意 文章品質 跟 推-噓 有正向關聯文章如果跟風向發 推文數自然就多
但這會降低八卦版上文章的多樣性
提升門檻的風險就是搞得文章歧異度更低46F 24.5.143.254 美國 10/04 06:38
→ wuyiulin: 要做風向分析要碰NN吧…有夠麻煩50F 61.58.87.4 台灣 10/04 06:41
→ arrenwu: 也不用想那麼複雜 你就想版上文章如果都是一面>10推 這肯定是有問題的51F 24.5.143.254 美國 10/04 06:42
推 skyjet: 推分析53F 193.52.24.38 法國 10/04 06:43
→ qazsedcft …
推 qazsedcft: 嗯嗯嗯我也是這麼想的54F 118.166.67.176 台灣 10/04 06:43
→ arrenwu: 這世界上很少大議題是沒有激烈正反辯論不過我倒是對於那兩個Python tool 感興趣55F 24.5.143.254 美國 10/04 06:43
推 SkyChaos: 嗯~ 我到底看了什麼 (推眼鏡57F 123.195.173.162 台灣 10/04 06:45
推 boostman: 乖乖做研究不要浪費才能啦XD58F 1.200.49.20 台灣 10/04 06:50
推 cmax: ㄜ哈哈哈厲害59F 49.217.52.15 台灣 10/04 06:52
推 Dustwind: 羡慕60F 42.77.119.11 台灣 10/04 06:52
推 wadeCC: 你研究報告做這個好了61F 101.9.135.217 台灣 10/04 06:52
推 NdFe35: 我怎麼覺得沒有很顯著差異64F 160.39.240.94 美國 10/04 07:05
推 youthyeh: 就是哆啦王和馬雅人這些鄉民在拉高分數65F 111.71.78.12 台灣 10/04 07:06
推 denny5425: 推66F 101.14.140.222 台灣 10/04 07:06
推 ucfan: 推67F 27.52.33.199 台灣 10/04 07:16
推 nomorepipe: 你的生統老師知道你在這裡發廢文嗎68F 111.83.54.191 台灣 10/04 07:21
推 ruby00514: 反正繼續提高黨工繼續買帳號來 反而正常人都被擋下來 呵呵69F 49.215.227.122 台灣 10/04 07:22
推 qilar: 厲害71F 180.217.133.15 台灣 10/04 07:26
推 st093: 推72F 114.187.193.88 日本 10/04 07:27
噓 Atako: 做這個研究
就是想消滅少數意見吧XD
要不要乾脆推出身分標籤
ID前面有個符號之類的
這樣還沒看文章就知道該噓該推73F 114.24.113.30 台灣 10/04 07:30
噓 kiske011: 恩恩78F 223.139.75.211 台灣 10/04 07:30
推 airyptt: 還蠻有意思的79F 49.197.215.115 澳大利亞 10/04 07:30
推 jojojen: 門檻提高 測風向大師文佔比跟著提高80F 42.76.94.137 台灣 10/04 07:31
推 ttnilozz: 其實真要操作幾個人就可以了
Ethan 的FB 有個人Lin Lin 一直法不重要的文洗版,等人少再補殺人文章81F 58.115.19.33 台灣 10/04 07:33
推 eddy1221: 認同度 □新聞.FB.爆掛 不太能算在ID上84F 61.227.192.55 台灣 10/04 07:38
推 Aquatics: 推85F 223.140.115.3 台灣 10/04 07:40
推 saisai9230: 很有意思,但是浪費才能。86F 118.167.127.126 台灣 10/04 07:40
推 OGC218: 推87F 49.218.114.83 台灣 10/04 07:43
推 resudi: 這蠻有趣的89F 114.37.139.46 台灣 10/04 07:45
推 czm: 一文下重複推噓 應該只記一次; 另,發錢=賄選90F 111.251.77.1 台灣 10/04 07:47
推 zxz56780: 有點厲害91F 114.41.165.236 台灣 10/04 07:48
推 ke1030: 推95F 42.72.252.98 台灣 10/04 07:57
推 jockercard: 認真給推96F 180.204.226.62 台灣 10/04 08:10
推 q22w: 滿厲害的!!97F 111.83.48.100 台灣 10/04 08:10
推 LunaDance: r=0.05 滿少的耶 這也表示網軍沒那麼多98F 153.235.106.205 日本 10/04 08:10
推 ALJOE30: 推100F 36.224.142.246 台灣 10/04 08:11
推 nazo: 太神拉101F 111.249.8.60 台灣 10/04 08:12
推 x06x06xj4: 看得懂給推102F 110.54.179.8 菲律賓 10/04 08:21
推 warlocks: 推 認真103F 14.0.226.254 香港 10/04 08:21
推 CTUST: 有錢說的話才有人聽 就是這個意思104F 223.137.186.232 台灣 10/04 08:21
推 Philethan: 讚105F 114.136.208.101 台灣 10/04 08:22
推 sidog: 推106F 42.75.209.226 台灣 10/04 08:23
推 Strokes: 沒空107F 61.228.178.111 台灣 10/04 08:24
推 shrink5566: 促咪109F 140.113.104.45 台灣 10/04 08:26
推 opfish: 統計廢文數量與質量110F 118.171.173.17 台灣 10/04 08:27
推 nixing: r^2=0.0025 能解釋的變異量也太低了111F 211.75.47.181 台灣 10/04 08:28
推 ChenYiBoy: 幹 浪費才能哈哈112F 114.136.47.6 台灣 10/04 08:29
推 f26724309: 專業推113F 115.82.69.65 台灣 10/04 08:31
推 Neil000: 跟我想的一樣114F 101.13.21.36 台灣 10/04 08:32
推 DrumREd: 你統計系?115F 1.160.125.30 台灣 10/04 08:33
推 BDUUU: 認真給推116F 49.216.140.199 台灣 10/04 08:38
推 smallpum: 浪費才能 精神給推117F 140.96.46.94 台灣 10/04 08:39
→ kinomon: 哈哈118F 42.77.78.18 台灣 10/04 08:41
推 James042: 太猛119F 223.140.2.139 台灣 10/04 08:42
推 F12NLargo: 統計推推120F 220.136.1.65 台灣 10/04 08:43
→ slimfat0202: 你是不是來ppt找工作的?122F 36.229.247.15 台灣 10/04 08:50
推 denny811012: 好強 借問那間學校123F 111.71.101.74 台灣 10/04 08:50
推 yukinoba: 看發文沒什麼用,主要是推文部隊
建議應該是針對50推以上文章125F 111.71.94.186 台灣 10/04 08:51
推 waitu0526: 幹結論到底是什麼啦127F 42.73.50.183 台灣 10/04 08:52
→ yukinoba: 看底下推噓文的那些id帳號
是不是都以登入次數少於700居多
這樣就可以大致判定出是否真的有128F 111.71.94.186 台灣 10/04 08:53
推 rhox: ptt也來搞資本主義131F 101.14.224.5 台灣 10/04 08:53
→ yukinoba: 推噓文部隊在帶風向132F 111.71.94.186 台灣 10/04 08:54
推 oyaji5566: 好文133F 114.136.139.221 台灣 10/04 08:54
→ yukinoba: 反過來看噓文X2以上的應該也能判斷出134F 111.71.94.186 台灣 10/04 08:55
推 cc456: 經濟狀況認同度高可能跟發錢文有關135F 220.133.124.44 台灣 10/04 08:55
→ yukinoba: 如果進一步鉤稽推爆跟噓爆文的議題
應該可以更明確看出有特定立場部隊
像之前每星期固定會有一篇仇甲文推爆
門檻提高後消失了一陣子直到這星期136F 111.71.94.186 台灣 10/04 08:56
推 s6525480:140F 211.76.92.72 台灣 10/04 08:58
→ yukinoba: 你說這背後沒有推文帳號部隊也太剛好141F 111.71.94.186 台灣 10/04 08:59
→ ginhwa: 乾~領500、5毛的黨工剛好是貧窮那群XDD143F 180.217.217.183 台灣 10/04 09:00
推 chopssin: 典型冪分佈 滿合理的144F 114.47.22.24 台灣 10/04 09:01
推 helixc: 浪費才能!145F 42.76.233.114 台灣 10/04 09:02
推 jack0216: 殺小.....XDDDDD146F 117.19.197.222 台灣 10/04 09:06
推 firenaruto: 推XDD147F 61.222.241.157 台灣 10/04 09:07
推 sulabird: 下一篇 政治文與登入次數的關係148F 223.140.121.170 台灣 10/04 09:07
推 spadej69171: 乾 專業什麼啦?150F 111.71.92.148 台灣 10/04 09:14
推 Lydia66: 怕.jpg151F 180.177.113.238 台灣 10/04 09:15
推 isaac42: 推U文 雖然怎麼想都是因為發錢152F 123.193.0.208 台灣 10/04 09:20
推 david220: 經濟狀況與文章認同度是發錢的那種吧?153F 60.250.184.98 台灣 10/04 09:20
推 kevin123453: 寫論文喔靠北 哈哈154F 140.112.4.192 台灣 10/04 09:22
推 s4552752: 給推 這個題目滿有趣的155F 140.109.160.112 台灣 10/04 09:23
推 eggbird: 浪費才能阿XDDDD156F 118.163.167.82 台灣 10/04 09:24
推 Lydia66: 要浪費才能到底的話,乾脆去跑多變量分析我也有點想知道發錢文的影響力www157F 180.177.113.238 台灣 10/04 09:25
推 lpoijk: 這代表著5000還是會被噓159F 12.163.134.12 美國 10/04 09:26
推 iamhemry: 拜託不要浪費才能160F 202.169.173.134 台灣 10/04 09:29
推 chichung: 你不要這麼專業好不好
寫文推爆拿p幣變有錢不是本來就正相關161F 180.204.66.127 台灣 10/04 09:29
推 daniel1309: 最後一張圖讓人直接想到發錢文。w163F 180.176.132.254 台灣 10/04 09:34
→ bnn: 有錢的有可能是發錢文拉高"認同度"而已164F 125.227.13.36 台灣 10/04 09:34
推 huihuihui: 沒錢的窮鬼臭了嗎?165F 140.112.208.96 台灣 10/04 09:36
推 domotocat: 推分析 雖然我看不懂166F 223.139.78.124 台灣 10/04 09:37
→ littlemen: 專業!169F 115.82.214.239 台灣 10/04 09:42
→ mmnnm: 有要提高門檻嗎??170F 163.16.240.165 台灣 10/04 09:47
推 faloca: 關於分身 能否從標註同一發文IP去處理呢? 例如不同帳號重複從某IP發文可視為相同 進而把低登入數ID之發文資訊合併到最高登入數的ID 之後再作分析這樣171F 61.230.107.68 台灣 10/04 09:48
--