看板 Gossiping作者 rosenzulu (玫瑰祖魯)標題 [問卦] 大數據分析與統計分析的差別?時間 Wed Oct 18 08:38:56 2017
大數據
最近被媒體使用到爛掉的名詞
常常看到新聞「大數據顯示...」
身為統計系的我 也稍微爬文瞭解一下
大數據的魅力所在
但看到的不外乎是
「未來產業大宗就是AI、物聯網與大數據的結合」
「運用大數據分析得到相關 進一步得知未來趨勢作為政策」
但如果是要探討相關性、做預測
使用統計方法不是也可以嗎?
再查一些大數據最夯的課程
幾乎都是R,Python這2個程式語言
然後使用該2語言實作資料探勘、機器學習
實在搞不懂大數據的新科技點在哪裡
有沒有產業界大數據大師可出來為小弟解惑?
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.204.33
※ 文章代碼(AID): #1PvgAYKz (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1508287138.A.53D.html
※ 同主題文章:
[問卦] 大數據分析與統計分析的差別?
10-18 08:38 rosenzulu.
→ lolic: 理組跟文組1F 10/18 08:39
噓 Reisuty: 大數據真的有,但台灣媒體只會亂講2F 10/18 08:39
推 aaQWE: 反正亂講也沒人會查3F 10/18 08:40
→ xbit: 統計=這個人 可能 很強 因為他勝率過5成5F 10/18 08:40
→ Reisuty: 以前講[統計顯示],現在改講[大數據顯示],超潮的6F 10/18 08:40
→ pooznn: 反正看報告的也不知道差在哪 有寫依大數據就能多騙些預算7F 10/18 08:40
推 tamama000: 一樣喇 就是excel跟sas的差別9F 10/18 08:40
→ xbit: 大數據= 這個人 好弱 對戰100個弱者 勝率才過5成10F 10/18 08:41
推 hellk: 混沌與有固定範圍的差異11F 10/18 08:41
→ jodojeda: 大數據也是數據 只要是分析數據的方法 都算統計12F 10/18 08:42
推 abram: 阿你自己都講了 就是結合AI阿 大數據=AI∩統計
你總不會認為AI等於統計或包在統計裡面吧13F 10/18 08:42
沒有啦 我知道AI跟統計不一樣 比較像機器學習
→ jodojeda: 因應大數據 會有跟以往不同的分析方法 但還是算統計方法16F 10/18 08:42
→ ChungLi5566: 像google從你搜尋的關鍵字 分析出適合你的廣告內容17F 10/18 08:44
→ abram: 統計喜歡用R AI習慣用Python 所以現在才會兩套並行18F 10/18 08:44
推 dirubest: 可是探勘過程還是很有可能garbage in garbage out..19F 10/18 08:45
推 if2: 大數據至少要上億筆資料才算吧 幾百萬筆也在大數據20F 10/18 08:45
感覺大數據比較髒的感覺 不像我們一般看到的矩陣型資料
噓 kice1204: 你挑戰一週內各鄉鎮各完成一萬份民調就知道了。22F 10/18 08:46
推 pierreqq: 大數據就是比數據大呀... 還要我教24F 10/18 08:50
→ beartsubaki: 單說統計你無法了解"樣本數" 但直接說大數據就表示樣本數夠大(揭露資訊相對充足) 分析方法雖然不同 其實都是統計啊 反正以前在學校學得也是統計系的教授來教25F 10/18 08:51
推 lturtsamuel: 有些學習方式 像是deep learning 目前人類還沒有建構出完整的理論 都是實務先行28F 10/18 08:53
推 pxhome: 就像詐騙集團跟壽險公司的差別30F 10/18 08:55
→ beartsubaki: 處理大樣本時 很難直接拿raw data去用 太大太雜了 反而很難找出你有興趣的資訊31F 10/18 08:55
推 guest8888: 大數據是取特徵建模型來預測未來
統計 就是統計35F 10/18 09:06
不太認同欸 統計也有建模跟預測阿!
→ rosenzulu: 統計分析其中一環也是資料處理 那大數據方面在做資料處理有不一樣的地方嗎?38F 10/18 09:09
※ 編輯: rosenzulu (114.137.204.33), 10/18/2017 09:12:08
※ 編輯: rosenzulu (114.137.204.33), 10/18/2017 09:14:08
推 DIDIMIN: 母體分析吧,不需要再搞抽樣分配40F 10/18 09:20
推 flac: 很多人會把準母體資料跟大數據混為一談,特別是初步接觸GA的人41F 10/18 09:23
※ 編輯: rosenzulu (114.137.204.33), 10/18/2017 09:28:18
推 dimw: 簡單講大概是進入資訊時代後 傳統的統計方法無法處理的東西44F 10/18 09:42
→ Cybershit: 其實在講Big Data 通常會跟神經網路模型 一起講
過於複雜的神經網路(ANN) 參數量太多
資料量太少 通常很難一般化(推廣到預測)
ANN很久以前就有了 只是現在資料量多 大家發現它可行就瘋狂做和它相關的研究 目前為止也展現出不錯的結果目前不錯的成果主要是ANN+Big Data 但大部分人不懂ANN只知道 Big Data, 再來媒體又濫用, 把純統計也講成
Big Data
有一派叫深度學習(DL) 主要是ANN+機器學習+Big Data
不過這領域真正的專家很少 幾乎只是其他領域(CV, NLP等因為研究需要順便去做DL. 或是本來做ML的人順便去做46F 10/18 10:25
推 t81511270: 跟人一樣 有經驗 就可以預測會發生什麼事情57F 10/18 10:33
推 Kazimir: 當年大數據這個詞非常紅的時候 其實真正的焦點是在技術上而不是分析上 對這麼大量的資料應該怎麼處理是個問題
那再這個問題解決的差不多以後 現在就開始紅DL了58F 10/18 10:35
推 kenny840719: 大數據感覺重點不是在那個量 而是方法 簡單的來說就是在一群雜亂的資料中快速的找出有用的資訊並加以應用61F 10/18 10:44
--