看板 Gossiping作者 blueskybird (曉昀)標題 Re: [新聞] 柯P「開放政府」大檢驗 學界:多數資料品時間 Sat Dec 30 16:00:03 2017
身為鍵盤工程師
而且長期使用政府open data在做防災相關的分析
小弟也做過農委會某局的巨量資料blabla分析計畫
應該有資格來說兩句打打嘴砲
===不想看可以END看結論===
開放資料定義很廣泛,把資料給你看了就算開放嗎?
不是的,還牽涉到這些資料的格式、機器可閱讀的等級、可交換的等級等等
1.資料的格式與型態:
如果資料格式非常通用,等級就高
且不需要購買任何付費的軟體就能開啟使用更好
常見的有txt、csv、json、xml、kml等等格式
2.機器可閱讀的等級:
通常資料越多越需要程式可以自動讀取、運算的資料型態
相對來講如果資料是網路通用的常見程式可以直接使用最好
讓各類網站、手機app可以自由用API串接讀取
比如說csv、json很多網站都能直接吃數據來顯示內容
完全不需要轉檔
3.可交換的等級:
資料的內容對於交換上是不是方便?
比方說透過網路自動更新檔案,完全不需要人工手動輸入就會更新
像是環保署空氣品質監測的數據,特定網址或檔案就能讀到當下的數據
每分鐘可能該檔案都會自動更新
這樣在資料、數據內容的交換上等級就更高
國際較普遍的認定以1~5星來做標準
歡迎參考
http://5stardata.info/en/ 英文
http://5stardata.info/zh-TW/ 中文
開放資料的五顆星
Information around Tim Berners-Lee's 5-star Open Data Plan ...
原本新聞所講就是這張圖
https://i.imgur.com/0cfCNyT.png
我們來看看1~5星級都是哪種檔案:
1
★ 採用開放授權,讓手上的資料(任何資料格式)可以在網路上取得
比方說pdf、圖片檔img等等
機器可讀性幾乎是零,只能看不能夠得到數據檔
2
★ 讓這份資料能以結構化的方式取得(例如用 Excel 取代掃描的表格)
這就是常見的office,機器可以讀內容,但需要特定的軟體開啟
3
★ 使用開放格式取代專屬格式(例如用 CSV 取代 Excel)
大家看到範例csv,其實剛剛提到的json、xml等等常用格式也是
很多網站或app能夠直接吃,就可以顯示數據的圖表或分布
這樣就是三星等
4
★ 使用固定網址來表示資料,使其它人可以連結到資料在資料網絡中的位置
這種就是政府開放API介接,可以直接讀到資料釋放出來
隨時都在變動,只要接上API都能讀到最新資訊
比方說大家手機都有天氣的app,數據可能是NOAA的、氣象局的
這些就屬於四星級的數據型態,不需要檔案,直接透過網路讀取
5
★ 鏈結你的資料到其它資料,以提供資料之間的脈絡關係,例如兩份資料
間的相等關係
來幻想一下什麼是五星,因為真的很少
比方說有一個台北市人口資料隨時都在變動
包含了移入移出遷居人口、性別人口數、每一個行政區的人口數
你可以介接,每秒有人在某一區的戶政事務所轉戶籍出天龍國都會立即知道
以上這樣是四星
五星資料還要把這個資料跟其他相關四星資料做連結
比如有另一個資料是稅收,跟人口有關
假設小明從天龍國轉移到南部
天龍國的稅收資料瞬間因為人口資料少了一個人
資料自動更新拉,就像靈的轉移
另一個資料會立即跟隨變動,就像你開啟了藍芽控制器,遠方的
跳蚤會跳一樣
===講這麼多,所以呢?===
好的大家都懂什麼是五星了
所以你就會開始想
奇怪剛剛那張圖上面四星跟五星的格式我看都沒看過
生活中接觸的也沒多少資料跟數據超過三顆星啊???
阿如果是四顆星跟五顆星,就網路讀取,也不用給你檔案下載啊?
沒錯喔,是的!!!真的沒多少數據能超過三顆星
先看看政府有可能開放哪些資料
1.政府相關報告(比方說政策評估白皮書、公開研究報告)
這些都是文字,也就是pdf為主,所以基本都是一星
不太可能放word給你,就算給你word也是最多兩星資料
2.相關數據(比方說人口統計資料、空氣品質)
這些都是數據,從csv檔案到線上API介接都有
所以基本上是兩星~四星資料,三星居多
3.地理空間資料(比方說縣市範圍、前陣子很夯的土壤液化潛勢圖等等)
這些包含了地理空間資訊,shp檔案或json檔案都有
基本上是三星資料
應該還有別的,但不出這個範疇
做到五星非常難,因為都需要改檔案格式重新彙整、互相連結
我還沒看過哪些五星資料成功案例(有沒有神人網友提供一下?)
四星資料是常見的,常見API開放出來都屬於四星
大多數都是即時監測型數據資料
四星資料可以做很多即時呈現應用,可以參考
用數據看台灣
https://www.taiwanstat.com/realtime/
用數據看台灣 - 即時資料
生長在台灣的我們,很少從一個宏觀的角度看整個台灣的經濟、法律、交通、教育... ,而我們相信數據可以幫我們更了解我們身長在的這片土地上的一切。 ...
比方說
http://water.taiwanstat.com/ 這個水庫水情資訊
就是水利署開放水庫即時的水位、蓄容狀況
而這個網頁讀取這些資料再呈現出來,不需要經過檔案處理
===OK,來講結論===
1.根本就沒多少超過三星的資料,多數會是1~3星很正常
2.需要四星級資料多數都是即時數據,沒有太多資料即時都在變動的
難不成政府的報告隨時都在變動嗎zzz
3.四星級資料不需要開放檔案給你下載,網路API介接即可
還要下載才能取得就又回到三星了,白癡嗎?
4.當然三星資料還有進步到四星的空間,只是批評1~3星為主沒有任何意義
5.抱歉五星級資料少得可憐,記者可能連五星級極度少見都不知道
6.大家應該把三星朝向四星作為努力目標,五星是長期目標
===來補打臉個原文===
沒想到迴響這麼大
回去仔細看了原報導來回一下
聽說原研究是「政府開放資料品質之研究:以Data Taipei平台為例」
說一個四星資料都沒有
我隨便打開Data.taipei
就看到幾個公開API介接的即時更新四星資料
1.YouBike臺北市公共自行車即時資訊
2.臺北市水質監測資訊(csv格式但隨時更新可以介接)
3.公車動態資訊
試問這些東西沒有四星,大家手上的app怎麼讀取
難道不是市府公布嗎?
這篇研究對開放資料的星級,是不是理解有問題...
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.250.123.77
※ 文章代碼(AID): #1QHqU8yA (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1514620808.A.F0A.html
※ 同主題文章:
Re: [新聞] 柯P「開放政府」大檢驗 學界:多數資料品
12-30 16:00 blueskybird.
→ NT49: 乾大家屁事 努力是公務員們要去努力3F 12/30 16:02
推 joe10337: 專業推 原來講的星數是這個
那那些學者在黑啥鬼開放透明...這開放資料等級跟透不透4F 12/30 16:02
推 OyAlbert: 記者和這不具名學者就擺明斷章取義拿來打柯的,哪可能仔細去了解細節6F 12/30 16:03
→ jo4: 3=>4有給$$$就會很簡單阿 你給錢嗎8F 12/30 16:03
→ zxc88112: 欸是說怎麼確保來源正確沒被改餒9F 12/30 16:03
→ joe10337: 明根本兩回事...還啥越接近核心的都只有1星 不透明10F 12/30 16:03
→ jo4: 一切都是$$$的問題11F 12/30 16:03
→ formatted: 就一堆書讀得少 外行領導內行的廢物12F 12/30 16:04
推 ubcs: 王喬喬就專業硬擠出來的柯黑新聞啊,還認真回文14F 12/30 16:04
→ jo4: 正確的數據你要去跟機關要 不過誰沒事會去改這個背偽造文書15F 12/30 16:05
→ GABA: 只有PDF就是不透明.........16F 12/30 16:06
推 joumay: 推 記者不認真不是一天兩天的事 想黑就再加碼...17F 12/30 16:06
推 chudly: 柯黑不懂啦,先求有再求好,慢慢往進步的方向走18F 12/30 16:07
推 formatted: 這種黑法只讓人確信「小時不讀書長大當記者」是真的21F 12/30 16:09
推 k7p83n: 大家應該問,原文所謂的「專家」到底是誰23F 12/30 16:12
推 kenro: 這篇專業多了 不過白痴柯黑應也看不懂24F 12/30 16:15
推 lianhua: 柯黑就一群低學歷的 記者跟御用專家說啥就信啥25F 12/30 16:15
推 rhox: 記者文組31F 12/30 16:16
推 flybirdy: 今天就集火這篇每人配額刷三次36F 12/30 16:20
推 chudly: 最煩的是有個MCS 會亂入狂貼圖,整個文就歪掉37F 12/30 16:24
推 SAABSAAB: 記者不白癡就奇怪了 不意外39F 12/30 16:26
推 k8543: 放心 柯黑會完全無視這篇42F 12/30 16:29
推 lslayer: 推解釋 果然又是無腦記者再亂黑43F 12/30 16:29
推 miky: 長知識推46F 12/30 16:31
推 avans: 推!長知識學習了!50F 12/30 16:34
推 VXcc: 0.056F 12/30 16:37
推 Keng: 八卦知識家59F 12/30 16:41
推 ECZEMA: 開放還被幹譙 報導初心有問題 劣幣逐良幣61F 12/30 16:42
→ MCSTRADALE …
→ MCSTRADALE: https://i.imgur.com/LJYzbdW.png63F 12/30 16:45
→ MCSTRADALE …
→ MCSTRADALE: https://i.imgur.com/DLrzmCI.png65F 12/30 16:46
→ MCSTRADALE: https://i.imgur.com/8QW1Q00.png
→ MCSTRADALE: https://i.imgur.com/AUYuBJL.png
→ MCSTRADALE …
推 MCSTRADALE: https://i.imgur.com/w6V1zZo.png70F 12/30 16:50
推 Bonkon: 只好跪著推了71F 12/30 16:50
→ MCSTRADALE …
→ MCSTRADALE: https://i.imgur.com/zkawkDY.png72F 12/30 16:50
推 goldhan: 柯黑都抽七星,就算都五星也一樣嫌爛75F 12/30 16:56
推 BLINKPTT: 打臉柯黑,柯黑回歸低學歷老頭子了,氣pupu77F 12/30 17:01
→ king22649: 可以試試拿漫畫or隨便一張照片丟上去 挺有趣的w85F 12/30 17:07
推 iiscon: ★★★★★91F 12/30 17:18
推 mn435: 好專業喔 我還以為星數是情報重要性93F 12/30 17:18
推 dennisN: 圖片要可讀也是轉換file type之後的結果 影像辨識的確讓電腦能懂圖片 但跟作者所提的可讀性非相同概念94F 12/30 17:22
推 KingKingCold: 老實說,柯黑才不會理你資料五星四星有多少見呢
只要能黑柯就行了97F 12/30 17:24
推 selvester: 六星是不是自動可以讓機器找正相關的數據 再feed back99F 12/30 17:25
→ king22649: 機械可讀應該是那種可以直接表示數據 像是csv吧
透過圖片辨識 弄出泛用api 應該可以達到類似的效果101F 12/30 17:27
推 yen0829: 專業給推,四星五星背後累死一票IT人員103F 12/30 17:28
推 mogli: 推105F 12/30 17:30
推 vvind: 推106F 12/30 17:30
推 elmoman: 王彥喬大記者會自動忽略這篇107F 12/30 17:31
推 king22649: 主要的問題應該是 影像辨識不像csv一樣是標配QQ110F 12/30 17:32
→ joe10337: 原來csv檔有這來頭 在公司常用但沒感覺112F 12/30 17:38
推 churrox: 推 整個台灣的開放資料都少得可憐 台北市已經相對好很多115F 12/30 17:45
推 sggs: 監察院的資料還只能人工申請去影印喔 XDD116F 12/30 17:48
推 qk13: 專業推118F 12/30 17:55
推 YJJ: 專業推122F 12/30 17:58
推 ctcba: 專業推126F 12/30 18:00
推 dafo: 好專業啊……128F 12/30 18:06
推 lunaX19: 感謝解說 和網站分享131F 12/30 18:09
推 Tiphareth: 我就想說那篇新聞我怎麼看不懂....想了很久看了這篇
才發現因為王大記者一邊寫到星級的分類正確資訊 一邊又寫到星級等於開放程度的品質 才發現他根本把兩個不相關的東西放在一起.... 難怪我整個有看沒有懂...132F 12/30 18:13
推 JCS15: 那篇參雜一堆模糊焦點的用語 不知道是原文如此
還是記者加油添醋 (我只隨意google) 沒找到原文
政府開放資料品質之研究:以Data Taipei平台為例136F 12/30 18:15
推 wres666: 控制器打開-->跳蛋會跳...141F 12/30 18:25
推 lyu0001: 先把政治獻金資料公佈吧 一般資料民眾沒興趣
如果能公佈薪資級距最好 政府死都不公佈142F 12/30 18:28
推 nt46: 專業推144F 12/30 18:32
→ coolda: 記者 與 專家 的差異146F 12/30 18:34
推 abd86731: 柯黑 : 不管啦 柯粉只會護航147F 12/30 18:37
推 Kazimir: 我個人是覺得應該以全面三星 至少兩星為目標 就算是純
文字檔也可以至少用文字的方式讀進來 再作處理也比較
有空間149F 12/30 18:38
→ Wand …
→ Wand: 白天也有專業文耶154F 12/30 18:44
※ 編輯: blueskybird (60.250.123.77), 12/30/2017 18:51:03
推 MasCat: 柯黑真可憐157F 12/30 18:50
推 fxntdsxdr: 記者要進步 不然只是丟臉而已再推一次159F 12/30 18:54
推 KingKingCold: Tiphareth 這一項是記者的強項阿,指鹿為馬移花接木 一向
外加偷換概念161F 12/30 18:58
→ Wall62: 柯黑:不管啦 blablablablabla164F 12/30 19:01
推 afgfg: 推165F 12/30 19:03
推 hikari22: 柯黑果然低學歷智障不意外170F 12/30 19:14
推 zeristso: 只有我一直想到抽SSR嗎?174F 12/30 19:17
推 CPH4: 藍芽跳蛋五星181F 12/30 19:44
推 joy135426: Tim Berners-Lee的四星以上就是要用RDF阿 不用頂多三星182F 12/30 19:46
這是誤會吧
星級並沒有限定格式阿
只要能達到RDF的使用方式跟特性,都算四星才正確
限定格式也太莫名其妙了吧
開放資料根本沒有所謂最佳格式,應依使用情況制宜
推 wilson0937: PTX 上面很多動態資料,應該可以算四星了吧
公車動態、公車到離站、台鐵誤點,甚至國道 etc 的都是即時資料,交通運輸領域還蠻多的191F 12/30 20:25
※ 編輯: blueskybird (60.250.123.77), 12/30/2017 20:30:33
推 DevilEnvy: 白痴記者還是有用的 釣出高手寫一篇優秀文章196F 12/30 20:40
推 AAA891216: 台灣開放資料數量冠居全球 但打開都發現連地址電話都被當成開放資料的一環 所以資料品質的確有待加強 但台北市這幾年已經進步很快了198F 12/30 20:50
推 HIDEI524: 文組:看到三星(Samsung)只能推了203F 12/30 21:06
→ joy135426: Tim Berners-Lee的Linked Data和Semantic Web基本上都是用RDF,所以用他的五星評等很難沒有這個元素吧
問題就是研究者直接拿他的評等來套205F 12/30 21:14
那張圖是示意圖,檔案格式只是範例
不然三星都要csv還得了orz
推 ETTom: 專業給推!!208F 12/30 21:20
※ 編輯: blueskybird (60.250.123.77), 12/30/2017 21:42:27
推 dabowchen: 低學歷柯黑只會po一堆圖片 哈哈 低學歷民調真的準215F 12/30 21:58
推 akata: 推216F 12/30 22:02
推 alex90236: 這篇沒柯黑跟黨工要回應嗎?還是臉太腫220F 12/30 22:20
Linked data - Wikipedia
The goal of the W3C Semantic Web Education and Outreach group's Linking Open Data community project is to extend the Web with a data commons by publishing various open datasets as RDF on the Web and by setting RDF links between data items from different data sources. In October 2007, datasets consis ...
→ joy135426: 所以像這裡提到的RDF都只是指特性嗎?我一直以為就是要224F 12/30 22:44
推 s98091028: 專業推 記者根本外行又愛講話大聲225F 12/30 22:44
推 xhung: 推專業 但政治凌駕專業 ㄎㄎ227F 12/30 22:51
推 The5F: 柯粉高潮啦230F 12/30 23:49
推 EXPCDR: 哇 厲害 猜記者不敢報哈哈哈哈231F 12/31 00:29
推 Aquatics: 柯黑就是無恥,講道理是沒用的232F 12/31 00:33
--