看板 Gossiping作者 olctw (olc.tw)標題 [爆卦]g0v 政治獻金數位化 24 小時破關捷報!時間 Sun Apr 20 23:31:49 2014
正式消息請看:
http://goo.gl/Pd9A5Y
這裡只列出一些數據 ;)
# 24 小時內將 2637 頁文件共 309666 格資料完成辨識
# 表單被送出 637160 次,來自 8352 個不同 IP
# 前三名次數
- 1. 30250 111.255.xx.xx
- 2. 5664 125.230.xx.xx
- 3. 3800 36.227.xx.xx
部份完成的結果可以透過下面網址預覽:
http://kiang.github.io/tw-campaign-finance/demo_text.html
有興趣下載完整資料的可以參考:
https://github.com/ronnywang/sandbox/tree/master/20140420
上面這只是七個人的資料,想要知道完整列表可以參考:
http://goo.gl/hdIrDd
看起來有 6227 筆,所以這次的成果其實是 7 / 6227
想要幫忙繼續把這些資料挖出來的朋友可以參考這個 SOP
http://bit.ly/PoliticalContribution
--
kiang
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 203.69.90.100
※ 文章網址: http://www.ptt.cc/bbs/Gossiping/M.1398007914.A.A9F.html
推 mc12355:照到朝陽會照死多少國家的吸血蟲呢?3F 04/20 23:32
推 ikki:超過三萬筆的是怎麼回事啊 XD6F 04/20 23:33
→ wahaha99:....那個三萬筆怎辦到的 這不是人工ocr嗎9F 04/20 23:33
推 james732:第一名是怎麼做到的啊......11F 04/20 23:34
管理員有追了一下,好像是真的神人
推 invander:喔喔,要好好保存,小心選舉前後忽然癱瘓,KMT奧步!16F 04/20 23:37
推 JFNfrog:媽的台灣人怎麼這麼有競爭力17F 04/20 23:37
請參考
http://goo.gl/29niNs
※ 編輯: olctw (203.69.90.100), 04/20/2014 23:39:57
推 colyward:就類似RECAP那種概念 集眾人之力辨識紙本文件轉換成電子27F 04/20 23:39
推 abian:哇 那就以前的clickclickclick.com點點大賽一樣,有人寫程式28F 04/20 23:39
→ colyward:看來網站流量瞬間炸了 .......圖片載入好慢32F 04/20 23:40
→ abian:把圖形化的東西,切成許多小區塊,由鄉民來人眼辨識輸入送出34F 04/20 23:40
→ tailor:大家可以查關鍵字"旅館"。36F 04/20 23:40
推 a6268538:早上很快,可能現在人多,主辦單位要考慮提高頻寬了46F 04/20 23:43
推 Bookdaily:這不需反覆驗證嗎?xxx筆,只靠xxx筆輸入,夠嗎?51F 04/20 23:45
我寫的是 637160 次輸入,但這是幾個鐘頭前的數字,在新聞發出後好像主機快被打掛了
推 tzq:QQ 我只有兩位數52F 04/20 23:45
推 abian:有驗證吧,有人寫的會出現這答案已經有人寫了,是____54F 04/20 23:46
※ 編輯: olctw (203.69.90.100), 04/20/2014 23:47:48
→ abian:人眼對一下,對的話就按下「這答案沒錯」55F 04/20 23:47
→ abian:現在好lag..59F 04/20 23:47
推 Rayio:鍵盤救國阿 乾脆監察院廢了把費用拿來支持這個活動60F 04/20 23:47
推 wangm4a1:推 希望有人能幫忙再印資料出來63F 04/20 23:48
推 invander:這個能申請智財嗎?做出來防拷貝,之後賣回給政府?70F 04/20 23:51
推 sssun:工人智慧加油!71F 04/20 23:51
推 dhs32:看來好像塞爆了?圖片一直是空白的77F 04/20 23:52
→ Bookdaily:原po可以幫我把推文的數字去除嗎?怕大家看到錯誤的數字81F 04/20 23:53
done
推 jimmily:有點LAG,鍵盤救國82F 04/20 23:53
※ 編輯: olctw (203.69.90.100), 04/20/2014 23:54:03
→ s860134:大部分空白都會有邊框 純白倒是沒遇到85F 04/20 23:53
推 dhs32:同樓上86F 04/20 23:54
推 jimmily:大家加油XD,一邊看電影一邊打資料中88F 04/20 23:56
推 tracetw:校正用原稿跟整合的資料對比會比較快 現在這樣校正根本
浪費時間89F 04/20 23:57
歡迎跳坑, g0v 可能沒有這麼多人力?
※ 編輯: olctw (203.69.90.100), 04/21/2014 00:02:05
推 orioh:跪了..98F 04/21 00:03
--