看板 Gossiping作者 blueskybird (曉昀)標題 Re: [新聞] 柯P「開放政府」大檢驗 學界:多數資料品時間 Sat Dec 30 16:00:03 2017
身為鍵盤工程師
而且長期使用政府open data在做防災相關的分析
小弟也做過農委會某局的巨量資料blabla分析計畫
應該有資格來說兩句打打嘴砲
===不想看可以END看結論===
開放資料定義很廣泛,把資料給你看了就算開放嗎?
不是的,還牽涉到這些資料的格式、機器可閱讀的等級、可交換的等級等等
1.資料的格式與型態:
如果資料格式非常通用,等級就高
且不需要購買任何付費的軟體就能開啟使用更好
常見的有txt、csv、json、xml、kml等等格式
2.機器可閱讀的等級:
通常資料越多越需要程式可以自動讀取、運算的資料型態
相對來講如果資料是網路通用的常見程式可以直接使用最好
讓各類網站、手機app可以自由用API串接讀取
比如說csv、json很多網站都能直接吃數據來顯示內容
完全不需要轉檔
3.可交換的等級:
資料的內容對於交換上是不是方便?
比方說透過網路自動更新檔案,完全不需要人工手動輸入就會更新
像是環保署空氣品質監測的數據,特定網址或檔案就能讀到當下的數據
每分鐘可能該檔案都會自動更新
這樣在資料、數據內容的交換上等級就更高
國際較普遍的認定以1~5星來做標準
歡迎參考
http://5stardata.info/en/ 英文
http://5stardata.info/zh-TW/ 中文
開放資料的五顆星
Information around Tim Berners-Lee's 5-star Open Data Plan ...
原本新聞所講就是這張圖
https://i.imgur.com/0cfCNyT.png
我們來看看1~5星級都是哪種檔案:
1
★ 採用開放授權,讓手上的資料(任何資料格式)可以在網路上取得
比方說pdf、圖片檔img等等
機器可讀性幾乎是零,只能看不能夠得到數據檔
2
★ 讓這份資料能以結構化的方式取得(例如用 Excel 取代掃描的表格)
這就是常見的office,機器可以讀內容,但需要特定的軟體開啟
3
★ 使用開放格式取代專屬格式(例如用 CSV 取代 Excel)
大家看到範例csv,其實剛剛提到的json、xml等等常用格式也是
很多網站或app能夠直接吃,就可以顯示數據的圖表或分布
這樣就是三星等
4
★ 使用固定網址來表示資料,使其它人可以連結到資料在資料網絡中的位置
這種就是政府開放API介接,可以直接讀到資料釋放出來
隨時都在變動,只要接上API都能讀到最新資訊
比方說大家手機都有天氣的app,數據可能是NOAA的、氣象局的
這些就屬於四星級的數據型態,不需要檔案,直接透過網路讀取
5
★ 鏈結你的資料到其它資料,以提供資料之間的脈絡關係,例如兩份資料
間的相等關係
來幻想一下什麼是五星,因為真的很少
比方說有一個台北市人口資料隨時都在變動
包含了移入移出遷居人口、性別人口數、每一個行政區的人口數
你可以介接,每秒有人在某一區的戶政事務所轉戶籍出天龍國都會立即知道
以上這樣是四星
五星資料還要把這個資料跟其他相關四星資料做連結
比如有另一個資料是稅收,跟人口有關
假設小明從天龍國轉移到南部
天龍國的稅收資料瞬間因為人口資料少了一個人
資料自動更新拉,就像靈的轉移
另一個資料會立即跟隨變動,就像你開啟了藍芽控制器,遠方的
跳蚤會跳一樣
===講這麼多,所以呢?===
好的大家都懂什麼是五星了
所以你就會開始想
奇怪剛剛那張圖上面四星跟五星的格式我看都沒看過
生活中接觸的也沒多少資料跟數據超過三顆星啊???
阿如果是四顆星跟五顆星,就網路讀取,也不用給你檔案下載啊?
沒錯喔,是的!!!真的沒多少數據能超過三顆星
先看看政府有可能開放哪些資料
1.政府相關報告(比方說政策評估白皮書、公開研究報告)
這些都是文字,也就是pdf為主,所以基本都是一星
不太可能放word給你,就算給你word也是最多兩星資料
2.相關數據(比方說人口統計資料、空氣品質)
這些都是數據,從csv檔案到線上API介接都有
所以基本上是兩星~四星資料,三星居多
3.地理空間資料(比方說縣市範圍、前陣子很夯的土壤液化潛勢圖等等)
這些包含了地理空間資訊,shp檔案或json檔案都有
基本上是三星資料
應該還有別的,但不出這個範疇
做到五星非常難,因為都需要改檔案格式重新彙整、互相連結
我還沒看過哪些五星資料成功案例(有沒有神人網友提供一下?)
四星資料是常見的,常見API開放出來都屬於四星
大多數都是即時監測型數據資料
四星資料可以做很多即時呈現應用,可以參考
用數據看台灣
https://www.taiwanstat.com/realtime/
用數據看台灣 - 即時資料
生長在台灣的我們,很少從一個宏觀的角度看整個台灣的經濟、法律、交通、教育... ,而我們相信數據可以幫我們更了解我們身長在的這片土地上的一切。 ...
比方說
http://water.taiwanstat.com/ 這個水庫水情資訊
就是水利署開放水庫即時的水位、蓄容狀況
而這個網頁讀取這些資料再呈現出來,不需要經過檔案處理
===OK,來講結論===
1.根本就沒多少超過三星的資料,多數會是1~3星很正常
2.需要四星級資料多數都是即時數據,沒有太多資料即時都在變動的
難不成政府的報告隨時都在變動嗎zzz
3.四星級資料不需要開放檔案給你下載,網路API介接即可
還要下載才能取得就又回到三星了,白癡嗎?
4.當然三星資料還有進步到四星的空間,只是批評1~3星為主沒有任何意義
5.抱歉五星級資料少得可憐,記者可能連五星級極度少見都不知道
6.大家應該把三星朝向四星作為努力目標,五星是長期目標
===來補打臉個原文===
沒想到迴響這麼大
回去仔細看了原報導來回一下
聽說原研究是「政府開放資料品質之研究:以Data Taipei平台為例」
說一個四星資料都沒有
我隨便打開Data.taipei
就看到幾個公開API介接的即時更新四星資料
1.YouBike臺北市公共自行車即時資訊
2.臺北市水質監測資訊(csv格式但隨時更新可以介接)
3.公車動態資訊
試問這些東西沒有四星,大家手上的app怎麼讀取
難道不是市府公布嗎?
這篇研究對開放資料的星級,是不是理解有問題...
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.250.123.77
※ 文章代碼(AID): #1QHqU8yA (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1514620808.A.F0A.html
※ 同主題文章:
Re: [新聞] 柯P「開放政府」大檢驗 學界:多數資料品
12-30 16:00 blueskybird.
→ NT49: 乾大家屁事 努力是公務員們要去努力3F 12/30 16:02
推 joe10337: 專業推 原來講的星數是這個
那那些學者在黑啥鬼開放透明...這開放資料等級跟透不透4F 12/30 16:02
推 OyAlbert: 記者和這不具名學者就擺明斷章取義拿來打柯的,哪可能仔細去了解細節6F 12/30 16:03
→ jo4: 3=>4有給$$$就會很簡單阿 你給錢嗎8F 12/30 16:03
→ zxc88112: 欸是說怎麼確保來源正確沒被改餒9F 12/30 16:03
→ joe10337: 明根本兩回事...還啥越接近核心的都只有1星 不透明10F 12/30 16:03
→ jo4: 一切都是$$$的問題11F 12/30 16:03
→ formatted: 就一堆書讀得少 外行領導內行的廢物12F 12/30 16:04
推 ubcs: 王喬喬就專業硬擠出來的柯黑新聞啊,還認真回文14F 12/30 16:04
→ jo4: 正確的數據你要去跟機關要 不過誰沒事會去改這個背偽造文書15F 12/30 16:05
→ GABA: 只有PDF就是不透明.........16F 12/30 16:06
推 joumay: 推 記者不認真不是一天兩天的事 想黑就再加碼...17F 12/30 16:06
推 chudly: 柯黑不懂啦,先求有再求好,慢慢往進步的方向走18F 12/30 16:07
推 formatted: 這種黑法只讓人確信「小時不讀書長大當記者」是真的21F 12/30 16:09
推 k7p83n: 大家應該問,原文所謂的「專家」到底是誰23F 12/30 16:12
推 kenro: 這篇專業多了 不過白痴柯黑應也看不懂24F 12/30 16:15
推 lianhua: 柯黑就一群低學歷的 記者跟御用專家說啥就信啥25F 12/30 16:15
推 rhox: 記者文組31F 12/30 16:16
推 flybirdy: 今天就集火這篇每人配額刷三次36F 12/30 16:20
推 chudly: 最煩的是有個MCS 會亂入狂貼圖,整個文就歪掉37F 12/30 16:24
推 SAABSAAB: 記者不白癡就奇怪了 不意外39F 12/30 16:26
推 k8543: 放心 柯黑會完全無視這篇42F 12/30 16:29
推 lslayer: 推解釋 果然又是無腦記者再亂黑43F 12/30 16:29
推 miky: 長知識推46F 12/30 16:31
推 avans: 推!長知識學習了!50F 12/30 16:34
推 VXcc: 0.056F 12/30 16:37
推 Keng: 八卦知識家59F 12/30 16:41
推 ECZEMA: 開放還被幹譙 報導初心有問題 劣幣逐良幣61F 12/30 16:42
→ MCSTRADALE …
→ MCSTRADALE: https://i.imgur.com/LJYzbdW.png63F 12/30 16:45
→ MCSTRADALE …
→ MCSTRADALE: https://i.imgur.com/DLrzmCI.png65F 12/30 16:46
→ MCSTRADALE: https://i.imgur.com/8QW1Q00.png
→ MCSTRADALE: https://i.imgur.com/AUYuBJL.png
→ MCSTRADALE …
推 MCSTRADALE: https://i.imgur.com/w6V1zZo.png70F 12/30 16:50
推 Bonkon: 只好跪著推了71F 12/30 16:50
→ MCSTRADALE …
→ MCSTRADALE: https://i.imgur.com/zkawkDY.png72F 12/30 16:50
推 goldhan: 柯黑都抽七星,就算都五星也一樣嫌爛75F 12/30 16:56
推 BLINKPTT: 打臉柯黑,柯黑回歸低學歷老頭子了,氣pupu77F 12/30 17:01
→ king22649: 可以試試拿漫畫or隨便一張照片丟上去 挺有趣的w85F 12/30 17:07
推 iiscon: ★★★★★91F 12/30 17:18
推 mn435: 好專業喔 我還以為星數是情報重要性93F 12/30 17:18
推 dennisN: 圖片要可讀也是轉換file type之後的結果 影像辨識的確讓電腦能懂圖片 但跟作者所提的可讀性非相同概念94F 12/30 17:22
推 KingKingCold: 老實說,柯黑才不會理你資料五星四星有多少見呢
只要能黑柯就行了97F 12/30 17:24
推 selvester: 六星是不是自動可以讓機器找正相關的數據 再feed back99F 12/30 17:25
推 The5F: 柯粉高潮啦230F 12/30 23:49
推 EXPCDR: 哇 厲害 猜記者不敢報哈哈哈哈231F 12/31 00:29
推 Aquatics: 柯黑就是無恥,講道理是沒用的232F 12/31 00:33
--