標題 [問卦] 大數據跟統計有啥不一樣嗎? - terievv板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

看板 Gossiping

作者 ilovedandan (歐陽妮妮忠實熱血粉絲)
標題 [問卦] 大數據跟統計有啥不一樣嗎?
時間 Wed Jul 1 22:57:32 2015

最近新聞上真的很常看到這個名詞 Big data

身邊的人也常用到這個詞

但有點想問統計跟大數據有甚麼不一樣?

因為總覺得現在人家口中說的"big data"

不過就是一般個人電腦用EXCEL就跑得出來的統計結果而已嗎?

那跟以往的統計有啥不一樣?

畢竟一般人能取到的資料庫就這麼大而已

而且分析出來就跟以往一樣，最後也找不出甚麼因果關係

但報告的時候講出Big data好像很厲害耶

所以實在很好奇這兩者有甚麼不同

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 120.113.52.30
※ 文章代碼(AID): #1La__VLK (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1435762655.A.554.html

→ MMMB4219: 你文組的?1F 07/01 22:57

→ hachime …

→ https: 名稱很潮3F 07/01 22:58

推 tetani: 根據大數據分析 5樓喜歡被肛4F 07/01 22:58

→ saiulbb: 月經文QQ5F 07/01 22:58

→ easyfish: GOOGLE 很難?6F 07/01 22:58

噓 no321: 潮7F 07/01 22:58

噓 willy1103: 文組上課也有教請勿汙衊文組謝謝8F 07/01 22:58

推 qxxrbull: category:ass vs Big ass9F 07/01 22:58

推 lockbolt: 統計 + 潮 = big data10F 07/01 22:58

→ tamama000: 潮11F 07/01 22:58

推 Brad255: 感覺在台灣會失業的科系....12F 07/01 22:58

→ milkyway168: 都是嘴砲數據13F 07/01 22:58

→ s860134: 不流行了現在新趨勢叫作物連網 IOT14F 07/01 22:58

推 chogosu: XDDD15F 07/01 22:59

→ tamama000: 用SPSS根EXCEL先排除16F 07/01 22:59

推 bckkt: 我也不是很了解17F 07/01 22:59

→ Abalamindo: 跟短片要叫微電影同樣道理潮到出水18F 07/01 22:59

→ Nikon1992: Big Data是多方位的原始數據，要怎麼用就看想分析什麼19F 07/01 23:00

推 Roger5566: 跟網路扯上關係就變潮了20F 07/01 23:00

→ nochoice: 當你的樣本數就是全部的時候，不用取樣跟統計模型21F 07/01 23:00

推 Phybd: 大數據簡單講就是樣本數逼近母體22F 07/01 23:00

推 aynmeow: ヽ( ・∀・)ノ統計 + 潮 = big data XDDD23F 07/01 23:01

推 akira00150: 以前的統計是母數取一部分當代表大數據是直接拿母數24F 07/01 23:01

噓 weinine32: 你的Excel有辦法處裡1000TB的原始資料嗎？25F 07/01 23:09

推 lingon: 實際上是....... 沒有！ (真的在做"大數據"的人留）26F 07/01 23:09

推 flac: 統計是將raw data轉成information的技術27F 07/01 23:10

→ weinine32: 你的Excel有辦法做Google搜尋排行嗎？28F 07/01 23:11

推 DWR: 統計一般是一開始就針對某一目的訂做資料收集而big data或者29F 07/01 23:12

推 cruise: Data mining 換個名詞就潮了...30F 07/01 23:14

→ wtl: 統計是用小樣本去推測整個母體大數據就是每一個樣本收集資訊31F 07/01 23:14

推 Hivwing: 統計 + 潮 = big data. XDDD32F 07/01 23:15

推 HisVol: wtl正解，統計是以部份推整體，big data是直接研究整體33F 07/01 23:32

推 flac: 對母體進行的統計差別在不必從樣本參數推估母數與做檢定34F 07/01 23:34

推 ANCEE: 直接用母體坐統計而已沒那麼威35F 07/01 23:35

推 fakelee816: 大量資料需要特別的演算法才跑的快36F 07/01 23:38

推 hansone123: 大統計37F 07/01 23:38

噓 arcred: 幾千TB的資料你用excel做看看38F 07/01 23:41

推 lianhua: 其實真的沒啥關係只是會用到統計方法而已39F 07/01 23:42

推 GeeDuTu: 哇我以為1TB就是big data了原來要上千TB喔40F 07/01 23:52

噓 aj175: 你可能叫孫子長大之後幫你看excel跑big data的結果41F 07/01 23:55

噓 power41: 前幾天才問過……42F 07/02 00:00

看板 Gossiping

作者 starcraftiii (星海爭霸三)
標題 Re: [問卦] 大數據跟統計有啥不一樣嗎?
時間 Wed Jul 1 23:11:15 2015

大數據的定義就是

收集到足夠多的資料就叫大數據

大數據難的不是資料量

難的是你要用什麼樣的數學模型

去知道某兩筆以上的離散數據

有到什麼樣程度的關係性(依不同的數據有不同的檢定方式)

※ 引述《ilovedandan (歐陽妮妮忠實熱血粉絲)》之銘言：
: 最近新聞上真的很常看到這個名詞 Big data
: 身邊的人也常用到這個詞
: 但有點想問統計跟大數據有甚麼不一樣?
: 因為總覺得現在人家口中說的"big data"
: 不過就是一般個人電腦用EXCEL就跑得出來的統計結果而已嗎?
: 那跟以往的統計有啥不一樣?
沒有不一樣,大數據分析就是用統計分析
: 畢竟一般人能取到的資料庫就這麼大而已
: 而且分析出來就跟以往一樣，最後也找不出甚麼因果關係
個人問題
: 但報告的時候講出Big data好像很厲害耶
: 所以實在很好奇這兩者有甚麼不同
巨大量的數據你硬要分析其中的前因後果,理論上做的到
但通常都是npc以上的難度
除非量子電腦實作化,不然以人類有限的資源無法做到這件事

回到大數據的分析方式

你要用什麼樣的數學模型,用什麼樣的檢定指標?

大家都知道資料量只要足夠多,就可以有一定信心水準的準確度來

做到未來預測一件事到一個門檻準確度

問題是how to do this? how could it be?

巨大數據分析的定義是足量的數據

足量的數據是足量以分析到所需準確度以上的的足量

所以我反問你,你需要多大量資料去統計? 你要用什麼指標去分析? 然後達到多準的預測?

--
XBox One
Titanfall
Asian East
http://www.twitch.tv/starcraftiii

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.126.101.56
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1435763478.A.2B8.html

推 kamisun: 要考慮不同國家的水準，像台灣的醫療水準比美國強好幾倍1F 07/01 23:12

推 Homeparty: 要考慮假資料有多少2F 07/01 23:12

假資料以及失敗的資料也是量夠大就有其價值

推 lingon: 所以講到最後還是統計/CS...... XD3F 07/01 23:13

對啊XDD
※ 編輯: starcraftiii (59.126.101.56), 07/01/2015 23:14:21

推 johnhmj: 專業文4F 07/01 23:14

※ 編輯: starcraftiii (59.126.101.56), 07/01/2015 23:15:04

→ wt5566: 主要還有即時性的不同,一般統計比較不會統計即時性data5F 07/01 23:14

即時性的成本是天文數字啊......
※ 編輯: starcraftiii (59.126.101.56), 07/01/2015 23:15:26

→ wt5566: 大數據則是時時刻刻收集統計6F 07/01 23:15

推 TheAVKing: 推7F 07/01 23:15

推 kimfatt: 知道邏輯怎麼算可以得到什麼叫統計，不知道會產出什麼叫8F 07/01 23:20
→ kimfatt: 大數據（跑出來的交聯分析還不知道靠不靠譜）

推 ko7811520: 其實風水氣候就是統計而來的吧10F 07/01 23:27

推 FIRZEN45: 大數據不是說有幾個V來着的…11F 07/01 23:37

推 showblue: 洞見計劃12F 07/02 00:14

推 Armuro: 此篇非正解. 大數據不只是看量而已...13F 07/02 00:27

看板 Gossiping

作者 Baudelaire (起坐不能平。)
標題 Re: [問卦] 大數據跟統計有啥不一樣嗎?
時間 Thu Jul 2 00:21:10 2015

林北宅宅啦。（幹一點氣勢都沒有）

本來看到你是歐陽妮妮忠實熱血粉絲我很不想回文的，
因為他爸以前當里長的時候喜歡在我家樓下公園辦兒歌同樂會，
搞的整個星期天都是妮妮娜娜哩哩落落的歌聲，
不過因為我在業界作這個作一陣子了，
所以簡單跟你說一下，希望你不要是因為妮妮的兒歌而變成她的粉絲的。

以最簡單的說法來分辨 big data 跟統計，
就是 big data 什麼都要，然後統計學通常都以抽樣/小樣本為主。

big data 在實作上分成兩種，
一種是 big data，一種是 big fast data。
我以前的背景是搜尋，以搜尋引擎的概念來說，
一個就是出去抓資料的 crawler，不用超級快，
一個是使用者執行的搜尋命令，必須要非常快知道答案。

至於實作上，
以我目前在的某間電商公司來說好了，
big data 作的分析是「拿所有人的消費行為來分析」，
以前的統計學很難做到這點，所以通常都是抽樣分析。

我知道問這個問題的人不是專門作這個的，
所以我用big data的應用來解釋你的問題，
這樣宅味比較沒那麼重。

我舉兩個例子來討論，這兩個都是我實際實作過的team。

第一個例子是，怎麼在某間網路公司實行動態價格。
價格理論是非常有趣的一個題目，商學院會跟你講一大堆奇奇怪怪的理論，
不外乎你成本多少，利潤多少，競爭者價格，過去的銷售狀況，
產品的屬性、分類等等，
這些資料看起來很有道理，但是假設你的公司有比紐西蘭乳牛還多的品項時，
要一件一件的調整價錢，就變成一件不可能的任務。

對，你可能可以用 excel 裝這個資料，不過你永遠調不完，
因為每個品項都有自己的價格曲線，根本不可能分析完成。
這時候古典的統計學就會跟你說，把品項分類，然後根據分類，
就形成幾大價格曲線，就可以帶公式把價格算出來。

這是好方法嗎？
好像不是很精確，不過這已經比直接亂套個利潤數字進去來得進步多了。

big data 的作法顯然不是這樣的，那 big data 要怎麼做呢？

首先，把一卡車資料分析過濾，留下需要的資料（ETL），
這些資料包括：
a. 該物品今天的成本（每天會變的）
b. 競爭者的售價
c. Day over day/WoW/YoY 每一季，甚至每一區的銷售狀況
d. 其他參考資料（比如天氣）

然後把資料進一步分析，一個蘿蔔一個坑，
根據我們實證出來的價格模型（這就是data scientist的工作），
把資料套入，就會得到不同的價格曲線，然後找出當天的價格，交差。

聽起來很簡單，不過這方面是有時間限制的；
如果每半天要更新一次價格，表示所有的價格都要在這個區間裡更新完畢。
這就是big data裡面必須快速處理的map reduce技術，
這是excel這些工具沒有辦法做到，傳統統計學也不重視的部份。

你也許會問，假設我們跟競爭者作完全一樣的事情會怎麼樣呢？
這部份的確是賽局理論裡很有趣的部份，我們也不知道會不會產生納許平衡。

第二個例子是計算消費者下單以後多久可以收到貨品的模型；
我講的並不是台灣這種可以三小時四小時到貨的國家（說真的，到底怎麼做到的？），
而是美國這種東西岸光是飛機就要五個小時以上的鬼地方。

講一個簡單的例子，假設消費者買了三個貨品，
必須要做的事情有：
a. 確認這三個貨品各自在全美上千間物流中心哪裡有貨
b. 這上千間物流中心各自有哪些物流服務（FedEx/UPS/USPS），
而各間物流有不同的截件時間
c. 用什麼方法運送（same day/saving/ground）
d. 怎麼打包（可能某間物流中心只有兩件，不過離消費者很近）

然後根據使用者的會員層級算出「最便宜的解」，或者「最速解」；
因為全美的每個郵遞區號我們都送過商品，所以我們會根據過去的運送狀況分析，
總共需要多少時間打包，多少時間等物流服務收件，多少時間送件。
因為「什麼時候可以收到」這個問題，必須在消費者下單的瞬間就有答案，
所以怎麼運用之前的資料，怎麼快速處理現在的使用者的需求，
就變成用 big data 處理會精確非常多的一個系統。

如果不用 big data 處理，以前大概就是套用統計結果的地圖，
告訴使用者「大概」什麼時候會收到，會非常的不精確，
顧客也會非常不滿意。

不過說了這麼多，我對 big data 也只是略懂，
這個領域還有很多可以玩耍的技術，有待宅宅們努力啊啊啊。

※ 引述《ilovedandan (歐陽妮妮忠實熱血粉絲)》之銘言：
: 最近新聞上真的很常看到這個名詞 Big data
: 身邊的人也常用到這個詞
: 但有點想問統計跟大數據有甚麼不一樣?
: 因為總覺得現在人家口中說的"big data"
: 不過就是一般個人電腦用EXCEL就跑得出來的統計結果而已嗎?
: 那跟以往的統計有啥不一樣?
: 畢竟一般人能取到的資料庫就這麼大而已
: 而且分析出來就跟以往一樣，最後也找不出甚麼因果關係
: 但報告的時候講出Big data好像很厲害耶
: 所以實在很好奇這兩者有甚麼不同

--
回來，我們重建家園穿過兩個夜晚的白色走廊
或永遠走開，像慧星那樣在回聲四起的山谷裡
燦爛而冷若冰霜你獨自歌唱
擯棄黑暗，又沈溺於黑暗中 < 北島慧星 >

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.135.15.52
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1435767674.A.C44.html

推 Archio: 看不懂1F 07/02 00:25

推 holmes006: 雖然不懂，但是好像有點厲害2F 07/02 00:25

推 DoraemonMkII: 本文作者專業清新耶3F 07/02 00:26

推 keroboy5566: 宅哥哥，你用哪種工具?4F 07/02 00:26

我們用很多啊 hadoop(hive)/hbase/cassandra/spark 還有一些自己寫的玩意

推 doubless: 沒有誤差的統計?????5F 07/02 00:26

推 s605171995: 專業推6F 07/02 00:26

→ chen740530: 可能不懂統計學在幹嘛吧統計就是要估計母體7F 07/02 00:27

統計學是要估計母體沒錯，big data 的資料本身就是母體

推 bignoob: big data做到近乎real time?8F 07/02 00:27

storm/spark 的速度可以很快的，不過有些資料可以先做preprocessing

→ whccpl: scrapy crawl9F 07/02 00:27

我做搜尋是2007年左右的事了，而且我們講的量級不知道一不一樣

推 siahxe95: 好像很厲害！10F 07/02 00:29

※ 編輯: Baudelaire (220.135.15.52), 07/02/2015 00:35:07

→ whccpl: 最近是用 python 的spider去scrapying11F 07/02 00:34
→ whccpl: 當然也可以用 hadoop 去做

--
※ 作者: terievv 時間: 2015-07-02 00:36:20
※ 編輯: terievv 時間: 2015-07-02 00:37:59

※ 看板: terievv　文章推薦值: 0 目前人氣: 0 累積人氣: 2138　

分享網址: 複製

DispBBS

回到看板(←)《terievv》

r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享