看板 Gossiping作者 olctw (olc.tw)標題 [爆卦]g0v 政治獻金數位化 24 小時破關捷報!時間 Sun Apr 20 23:31:49 2014
正式消息請看:
http://goo.gl/Pd9A5Y
這裡只列出一些數據 ;)
# 24 小時內將 2637 頁文件共 309666 格資料完成辨識
# 表單被送出 637160 次,來自 8352 個不同 IP
# 前三名次數
- 1. 30250 111.255.xx.xx
- 2. 5664 125.230.xx.xx
- 3. 3800 36.227.xx.xx
部份完成的結果可以透過下面網址預覽:
http://kiang.github.io/tw-campaign-finance/demo_text.html
有興趣下載完整資料的可以參考:
https://github.com/ronnywang/sandbox/tree/master/20140420
上面這只是七個人的資料,想要知道完整列表可以參考:
http://goo.gl/hdIrDd
看起來有 6227 筆,所以這次的成果其實是 7 / 6227
想要幫忙繼續把這些資料挖出來的朋友可以參考這個 SOP
http://bit.ly/PoliticalContribution
--
kiang
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 203.69.90.100
※ 文章網址: http://www.ptt.cc/bbs/Gossiping/M.1398007914.A.A9F.html
推 mc12355:照到朝陽會照死多少國家的吸血蟲呢?3F 04/20 23:32
推 ikki:超過三萬筆的是怎麼回事啊 XD6F 04/20 23:33
→ wahaha99:....那個三萬筆怎辦到的 這不是人工ocr嗎9F 04/20 23:33
推 james732:第一名是怎麼做到的啊......11F 04/20 23:34
管理員有追了一下,好像是真的神人
推 invander:喔喔,要好好保存,小心選舉前後忽然癱瘓,KMT奧步!16F 04/20 23:37
推 JFNfrog:媽的台灣人怎麼這麼有競爭力17F 04/20 23:37
請參考
http://goo.gl/29niNs
※ 編輯: olctw (203.69.90.100), 04/20/2014 23:39:57
推 colyward:就類似RECAP那種概念 集眾人之力辨識紙本文件轉換成電子27F 04/20 23:39
推 abian:哇 那就以前的clickclickclick.com點點大賽一樣,有人寫程式28F 04/20 23:39
→ colyward:看來網站流量瞬間炸了 .......圖片載入好慢32F 04/20 23:40
→ abian:把圖形化的東西,切成許多小區塊,由鄉民來人眼辨識輸入送出34F 04/20 23:40
→ tailor:大家可以查關鍵字"旅館"。36F 04/20 23:40
推 a6268538:早上很快,可能現在人多,主辦單位要考慮提高頻寬了46F 04/20 23:43
推 Bookdaily:這不需反覆驗證嗎?xxx筆,只靠xxx筆輸入,夠嗎?51F 04/20 23:45
我寫的是 637160 次輸入,但這是幾個鐘頭前的數字,在新聞發出後好像主機快被打掛了
推 tzq:QQ 我只有兩位數52F 04/20 23:45
推 abian:有驗證吧,有人寫的會出現這答案已經有人寫了,是____54F 04/20 23:46
※ 編輯: olctw (203.69.90.100), 04/20/2014 23:47:48
→ abian:人眼對一下,對的話就按下「這答案沒錯」55F 04/20 23:47
→ abian:現在好lag..59F 04/20 23:47
推 Rayio:鍵盤救國阿 乾脆監察院廢了把費用拿來支持這個活動60F 04/20 23:47
推 wangm4a1:推 希望有人能幫忙再印資料出來63F 04/20 23:48
推 invander:這個能申請智財嗎?做出來防拷貝,之後賣回給政府?70F 04/20 23:51
推 sssun:工人智慧加油!71F 04/20 23:51
推 dhs32:看來好像塞爆了?圖片一直是空白的77F 04/20 23:52
→ Bookdaily:原po可以幫我把推文的數字去除嗎?怕大家看到錯誤的數字81F 04/20 23:53
done
推 jimmily:有點LAG,鍵盤救國82F 04/20 23:53
※ 編輯: olctw (203.69.90.100), 04/20/2014 23:54:03
→ s860134:大部分空白都會有邊框 純白倒是沒遇到85F 04/20 23:53
推 dhs32:同樓上86F 04/20 23:54
推 jimmily:大家加油XD,一邊看電影一邊打資料中88F 04/20 23:56
推 tracetw:校正用原稿跟整合的資料對比會比較快 現在這樣校正根本
浪費時間89F 04/20 23:57
歡迎跳坑, g0v 可能沒有這麼多人力?
※ 編輯: olctw (203.69.90.100), 04/21/2014 00:02:05
推 orioh:跪了..98F 04/21 00:03
推 nojoe:鍵盤救國!!100F 04/21 00:03
推 buddar:good job101F 04/21 00:04
推 mdffc:推推105F 04/21 00:08
推 doun:鍵盤救國推!107F 04/21 00:09
噓 iGao:……到底是那些混帳說台灣沒人才沒競爭力的?108F 04/21 00:10
推 lolikung:click^3 的打字兵出動了110F 04/21 00:10
推 abian:可辨識的浮水印大字,要打浮水印的字還是選這是空白?113F 04/21 00:12
空白
推 nht:浮水印不用打, 是空白116F 04/21 00:13
→ abian:了改!117F 04/21 00:13
推 danieo:有點LAG118F 04/21 00:13
推 tracetw:不是啊 你要大家協同輸入資料可以 校正一輪後就該輸出成原稿來校正 現在的情況是大家還在load幾萬張校正一輪圖片119F 04/21 00:13
其實程式都還在調整中,歡迎跳坑
https://github.com/ctiml/campaign-finance.g0v.ctiml.tw
→ s860134:收集的資料之後還可以用機器學習做處理 只要校對就好122F 04/21 00:15
→ acont:推!!!129F 04/21 00:17
推 abian:喔喔 t大是指人工辨識一輪後,先不管正確率,輸出每頁全文,131F 04/21 00:19
→ abian:一個人一次校對一整頁比較快? @@133F 04/21 00:19
推 shien807548:整頁校正過的會拿掉吧?不然怎麼每次看都只有1-2人回答136F 04/21 00:20
有設定出現機率,盡量讓校正的頻率平均
→ s860134:可能是threshold設在3吧137F 04/21 00:22
推 ronlai:當年click^3搞他動認證都沒那麼勤勞過..orz138F 04/21 00:22
→ s860134:人工辨識率基本上都是非常準的 3次幾乎不太可能錯139F 04/21 00:22
推 Alcor:空白還不少欸...140F 04/21 00:25
→ rotusea:這是....什麼@@141F 04/21 00:26
推 cogito:可不可以弄個排行榜之類的 可以增加大夥的動力142F 04/21 00:26
已經很多類似建議:
https://github.com/ctiml/campaign-finance.g0v.ctiml.tw/issues/15
推 cogito:剛發現有人來亂 明明空白的地方 輸入一堆數字143F 04/21 00:29
→ danieo:連按幾十次空白了... 有沒有辦法軟體先挑掉..144F 04/21 00:29
→ s860134:我猜是可以先挑調 但是一開始根本沒資料去做
現在應該有幾萬張已經標好內容的圖片去做訓練 要挑調空白現在應該做的到了145F 04/21 00:30
懂得相關技術的人還在嘗試中,歡迎熟悉 opencv 之類技術的朋友參與
推 karlrecon:主要是資料合成上 如果分成人工+自動 座標問題較麻煩148F 04/21 00:32
推 tracetw:就是啊 不然以後還有6220/6227 要校正到什麼時候149F 04/21 00:32
→ s860134:空白的資料的話應該沒有座標的問題吧?150F 04/21 00:33
推 yaya:
鍵盤救國!!!!!151F 04/21 00:33
→ s860134:另外輸入30分鐘有發現原本編號300-400 現在都500-600多了153F 04/21 00:36
推 karlrecon:g0v高手應該會解決效率問題啦,給一點時間154F 04/21 00:38
推 ronlai:突然連噴兩個讀取不到XD 看來人真的很多156F 04/21 00:39
推 yayaoh:這讓我想到以前的點點點大戰XD157F 04/21 00:39
推 wiydluck:神人 但是很多人打數字打錯 例如5820 打成5280158F 04/21 00:42
推 elflily:如果空白頁有人回答是空白,那我要按空白還是這答案沒錯啊?161F 04/21 00:42
→ wiydluck:有人回答的話 他會說有幾人回答 並說他的答案是什麼165F 04/21 00:43
推 danieo:突然出現 "阿麗雞肉飯" 害我笑噴166F 04/21 00:43
→ wiydluck:如果你認同他的答案 就點 這答案沒錯167F 04/21 00:43
→ shizukuasn:也有看到明明有字 上一個人卻輸入空白= =168F 04/21 00:44
推 ronlai:[震怒] 當打字兵也會被消夜文打中169F 04/21 00:44
推 btogwx:可能有人電腦LAG吧?
那如果3,000 三個人都看3000 那個逗點怎麼辦?172F 04/21 00:48
補進去也行,其實只要數值正確就可以了
推 yaya:全部都ok了嗎? 我目前還在用 怎麼還有沒輸入過的174F 04/21 00:49
→ btogwx:我幾乎都跳空白 跟確認上一個人175F 04/21 00:50
推 shizukuasn:我是都會更正 像是圖片"台北市"上個人打成"臺北市"
這我也會改176F 04/21 00:50
推 wiydluck:很好奇為什麼監察院明明有電子檔 卻不能公佈?178F 04/21 00:51
歡迎一人一信去要求他們公佈,沒有人喜歡這樣子幹傻事的 ;)
→ btogwx:圖跳什麼就打什麼 我會選字 雖然同音180F 04/21 00:51
推 noneed2argue:剛剛有次圖還沒開完 就不小心按了"這是空白" orz
按太快orz 再請各位幫忙確認了181F 04/21 00:53
推 murasei:那如果3,000 三個人都看3000 那個逗點怎麼辦?+1184F 04/21 00:54
推 wiydluck:話說這工作大部分都替代役做的 請監察院替代役COPY出來185F 04/21 00:54
→ murasei:可以請工程師說明一下嗎????187F 04/21 00:55
推 urreed:推注意不要重複多人作同一文件的浪費188F 04/21 00:55
推 shizukuasn:那就再輸入3,000吧 跟文件一模一樣比較好189F 04/21 00:56
推 wiydluck:這政治獻金 幫助我了解 我不應該去哪些地方消費192F 04/21 01:04
推 btogwx:有人看到人的全名嗎? 剛剛看到一個全名耶 正常嗎?193F 04/21 01:05
推 charlie0228:遇到一堆空白= =+ 不過可以為台灣貢獻一點心力,真好195F 04/21 01:07
推 PPK33:瘋老頭的監察員可以掰了196F 04/21 01:08
推 wiydluck:正常 比較少而已 人民應該是出現在原始圖檔的捐贈者欄位197F 04/21 01:08
推 chi323:有全名很正常 我還打到金溥聰 不知道是出現在什麼欄目裡~XD198F 04/21 01:12
推 Gnome:照妖鏡計畫199F 04/21 01:17
→ bnn:雖然立意良好,但總覺得是分散罷免注意力和工程師動員能量...200F 04/21 01:21
有了這些數據,或許就能夠找到更多罷免的理由?
推 btogwx:可是若能把資料數位化 至少能影響多一些有投票權的吧
掛網拼這個的 也許只是學生 尚未有投票權
其實政治獻金能透明化 也許你也可以多消費一些你認同的店家總比有些大企業私下收受 利益交換來的好 至少我這樣認為拉201F 04/21 01:24
→ s860134:到2000惹 只剩600 沒工作了??!!207F 04/21 02:09
推 danieo:它打錯字我要不要幫它挑 台北"是"松山區 算了 照打好了..208F 04/21 02:23
推 Splash5:加到手機瀏覽器裡 坐車無聊也可以幫忙210F 04/21 02:25
推 danieo:取得已經處理完成的頁面列表(2637 / 2637)
是說都只剩確認了嗎214F 04/21 02:56
推 smokeman:真的只剩確認了 可雖然是確認 還是有不少錯誤阿!217F 04/21 02:58
歡迎參考上述 SOP ,進監察院去搶一些糧食出來?
→ danieo:我也抓到不少 有人浮水印也打上去 XD218F 04/21 03:06
推 pcyu16:要有足夠多的確認次數才能當作準確資料
要避免網站被攻擊之類的 少數一兩次的輸入不能當作結果
浮水印請無視 其他儘量照原文打 (包括數字逗號跟中文錯字)219F 04/21 03:06
推 saert:可不可以弄一個這答案沒錯的快捷鍵啊?222F 04/21 03:17
推 gogo650:"到監院列印"的工作要先線上"認領"和"排程"才有效率啊!223F 04/21 03:18
清單:
https://raw.githubusercontent.com/ronnywang/sunshine.cy.gov.tw/master/list.csv
後面應該會想辦法寫認領程式吧,有人要跳坑嗎?
→ gogo650:我還有疑問 為何不能使用辨認軟體作初步輸入的工作224F 04/21 03:19
有做了,來不及合併,而且浮水印造成辨識品質不佳
→ s860134: 另外做第二輪還是發現有錯誤...包括自己輸錯XD225F 04/21 03:21
→ gogo650:"工人智慧"直接用在校核會更快呀 不是嗎?226F 04/21 03:21
推 btogwx:原來真的只剩確認了... 我還以為是我錯覺...227F 04/21 03:22
→ pcyu16:答案沒錯的快捷鍵已經有了不是嗎..229F 04/21 03:25
推 btogwx:= = 好奇什麼欄位可以填 郵局 耶230F 04/21 03:26
→ pcyu16:要填格子的時候 旁邊會有標記這是哪一頁的哪格
把那個數字記下來 可以對應原始文件233F 04/21 03:31
→ danieo:只能用滑鼠點吧237F 04/21 03:36
→ s860134:其實點答案沒錯 你是傳送"目前答案"格子內的答案238F 04/21 03:51
→ s860134:所以點同意 "" 或是自己點 "這是空白" 是同義240F 04/21 03:52
推 danieo:請問圖片是空白 卻有人輸入字 要改掉是按"這是空白" 還是打個空格送出? 直接送出? 看到有一個這情況的居然被確認4次243F 04/21 05:38
推 ab32110:這真的超強!還有需要幫忙請通知245F 04/21 06:35
推 pcyu16:@danieo: 按 [這是空白]246F 04/21 07:01
推 danieo:喔喔 那我沒按錯 因為一直出現同樣的還以為我搞錯247F 04/21 07:09
推 gaden:真是太強大了!!248F 04/21 08:28
推 zooks:推249F 04/21 08:43
推 aa874125:建議可以遊戲化,計次、積分、檔案數倒數,比較不會悶
最好增加個積分榜,宅宅的執念是很可怕der~252F 04/21 09:12
推 washltz:看了政黨捐款知道黨產有多好用254F 04/21 09:27
推 saxxas:滑2048的時間改輔助OCR255F 04/21 10:54
推 traipse:建議增加[上一頁]的功能 有時按沒錯按太多會突鎚256F 04/21 11:04
已經有類似建議
https://github.com/ctiml/campaign-finance.g0v.ctiml.tw/issues/18
→ traipse:如果帶隨身掃描儀去調資料是不是就不必花影印費了?
如果帶隨身掃描儀去調資料是不是就不必花影印費了?257F 04/21 11:04
如果螢幕上顯示的資料可以這樣子掃描的話?在螢幕上掃描數萬張圖片好像有點難度
推 aa874125:現在手機相機功能都這麼強,可以用拍照的嗎?259F 04/21 11:55
如果你拍照的速度可以快過雷射印表機,歡迎試試
推 rain6262:全形半形需要修改嗎?(按久了真的很容易手滑或眼殘...)260F 04/21 12:11
推 awashharp:現在是不是格子都打完了?我都遇到確認正不正確的題目261F 04/21 12:14
是的,這一輪基本上已經有超過 100% 的涵蓋率,超過的部份都是校正工作
※ 編輯: olctw (218.164.0.81), 04/21/2014 12:31:21
--