顯示廣告
隱藏 ✕
※ 本文為轉錄連結,轉錄者為 lecheck
※ 本文為 dinos 轉寄自 ptt.cc 更新時間: 2017-10-31 11:21:11
看板 Gossiping
作者 Gjoy (鬼接TU\)
標題 Re: [問卦] PTT主機配置為何的八卦
時間 Mon May 27 01:46:54 2013


※ 引述《wei502 (阿仁)》之銘言:

要善用google啊


--
原作者之前和同事做了「實價登錄地圖」(現在關站了~內政部太雞歪ㄌ)
現在又和朋友響應open data一起重做了教育部辭典

https://www.moedict.tw/
萌典〔教育部國語+臺灣閩南語常用詞辭典〕(民間線上版)
收錄十六萬筆國語、一萬六千筆臺語條目,每個字詞都可以輕按連到說明,並提供 Android 及 iOS 離線版。來源為教育部「重編國語辭典(修訂本)」及「臺灣閩南語常用詞辭典」,辭典本文的著作權仍為教育部所有。 ...
 

超好用 整合了教育部所有辭典於一站 還有中文斷詞、閩南語發音、國語發音..


-------------------------

作者 smartboy (很長長長長長長長的暱稱!)
標題 ptt 數據
時間 Sun Oct 18 01:32:27 2009

我偶爾會看 ptt 的一些統計圖觀察系統的行為,
常常看了之後在 irc 上零散的發表某些發現.
我想也許有必要整理成一份比較完整的樣子, 方便自己或其他人參考.

此外, 有感許多網站的數據不易取得, ptt 比較沒有競爭關係的考量,
公開這些數據讓大家知道 ptt 的規模,
也許對有興趣的網站開發者/管理者有幫助.

本文可轉載

注意, 以下數據只取樣少數天, 而且不見得是同一天. 僅供參考.
數字大都是從 rrd graph 裡目測的. 資料時間 2009/10
這裡這數據只有 ptt1, bbs 的部份, 不含 ptt2, 也不含 web

基本資料
  註冊人數: 目前 124 萬多, 快到上限 125 萬了
  同時上線人數: 目前上限設 15 萬, 估計若不限制 peak 有機會到 16~17 萬
  看板數: 16411
  看板文章總量: 24561137
  個人信件總量: 45680788
  精華區文章總量: 統計不易, 略

機器
  8 CPU
  64GB ram
  3 組 raid, 各 12,12,4 顆硬碟, 有的用 raid5 有的 raid10

OS
  linux, kernel 2.6.25.20
  x86_64
  bbs 資料主要使用 reiserfs, 其他用 xfs
  切了一堆 partition, 每個 120G, 再把 bbs data 目錄 symbolic link 過去

頻寬
  * 各時段差不多都是 in:out = 1:6
  * 平均大約 in 8Mbps, out 49Mbps
  * peak 大約是 in 66Mbps, out 110Mbps
  * 95% 目測大約 95Mbps

disk storage
  * 總資料量(以 file system block 計)約 430G (只計 board,man,home 的部份)
  * 實際有效資料量
    board 150G
    man 49G
    home 132G
    total 332G

使用曲線/成長
  * 每天的 login account 數, 平均約 40 萬. 每天都滿穩定大約是這個數字.
  * 統計 10/9~10/(9+n-1), 有多少不重複的 login account:
    n   login
    1   399243
    2   506278
    3   567910
    4   607583
    5   634238
    6   655441
    7   674246
    8   690667
    (另外找九月初跟十月初兩天當 base, 算出來的數據也差不多.)
    綜合這些數字, 大概可以看出來, 雖然註冊帳號數一百多萬, 常用的 user 約
    50~60 萬左右, 而這些 user 大約七八成會每天上線.
  * 4am~8am 是人最少的時段, 6am 最少大約在 4 萬多, 8am 開始會穩定大約
    每小時增加一萬人, 到 1pm 人數大致穩定, 4~5pm 人數會開始下滑 5k~10k 人.
    大約 7pm 前會再開始增加, 也是約每小時 1~1.5 萬的速度.
    peak 在 11:00~11:30 之間. 一過12 點, 人數馬上以每小時 2~3 萬的速度減少.
  * 根據同時上線人數, 禮拜天到禮拜四, 這幾天的使用人數/使用量大致上差不多.
    若天氣好的話, 禮拜五六兩天晚上明顯會比較少人, 大概少 3 萬剩 12 萬左右.
    若下雨天, 人數有機會跟平常日差不多.
  * 上站人數跟寒暑假有密切關係. 寒假大約只剩放假前的 65%, 暑假剩 88% 左右.
    放完假人數會回到跟放假前差不多.
  * 大致上並沒有一個簡單的數字可以看 ptt 成長的速度
    - 註冊帳號數常會被註冊後棄置, 而且常常滿掉無法註冊
    - 上站人數常受限於硬體, 而且其中包含不少 idle
    - 各種站上活動會隨時間慢慢改變習慣, 或是受 bot 影響
      (會這樣說是因為有的曲線並不如想像中那樣平緩上升或下降)
    參考各統計數據, 我個人主觀估計, ptt 還在以每年約 10~20% 的速度成長.

各種統計
  * 閱讀文章
    閱讀時間與發文時間差, 各時段都差不多這比例
        <12hr <1day <3day <7day old
        62%   10%   9%    4%    13%
    平均約每秒 470 篇
    peak hour 每秒 1100 篇
    (這是不是可以當作相當於平均每天 40M page view?)
  * post 下午時段約每分鐘 40 次, peak hour 每分鐘 90 次
    值得注意的是, post 數量一年來並沒有增加, 還緩慢減少..
    (目測減少約 10%) 猜測跟推文盛行還有各大板發文條件變嚴有關.
  * 推文 下午時段平均每秒 3 次, peak hour 每秒 7 次.
    但這個數值容易受程式灌水/推文娃娃/推齊等因素影響, 數量比較不穩.
  * 送訊息(水球), 下午時段約每秒 4 次, peak hour 約每秒 13 次.
    自從 IM 開始流行後, 使用率逐年緩慢變小.
    最明顯的記錄是 2006/09/11, msn 大斷線, 每秒水球使用次數 double,
    還造成 ptt server loading 過高, 無法 login.
  * talk 平均每小時 29 次 (含棋類對戰), peak hour 大約一小時 150 次.
  * login: 平均每秒約 10 次, 白天約 10~13 次, peak hour 約 20 次
  * logout: 在剛過半夜 12 點那時, 會瞬間大量 logout, 每秒可達約 30 次

系統
  * read(2), write(2)
    由於 bbs 的特性, user 每輸入一個 key 就會送一個封包, 程式就要 read 一次.
    下午時段大約每秒 8000~10000 次 read.
    peak hour 大約每秒 18000~20000 次.
    write 幾乎跟 read 數量差不多.
    (這邊只算 mbbsd 處理 user input 的 read/write)
  * context switch
    下午時段約每秒 23000 次, peak hour 約 53000 次
  * loading: 當 disk busy 100% 時, OS loading 飆到上千是常有的事,
    當有特殊狀況發生(譬如 peak hour 當站之類的), 會到
    目前 loading 最高記錄是 2007/06/26 (換機器之前), 50051.13, 49961.52,
49302.06.
    換機器後的記錄是 2008/03/10, 7682.94, 3073.47, 1347.52
    現在在正常情況下, 白天 loading 大約 10~20, peak hour 會從 30 升到將近 100.
  * memory: peak hour 時, free+buffer+cache 的量大約 24G

bot
  * 兩年來至少有兩三千個帳號曾有疑似 bot/crwaler 行為(快速讀一堆文章)
  * 以月為單位, 2008/04 以前 bot 很少, 或比較節制.
    2008/05 開始突然出現約百隻. 2009/03~04 約到兩百.
  * 以天為單位, 2009/09 幾乎每天都會活動的 bot 大概十來隻.
  * 短期/次數不多的 bot 有可能是用工具程式掃文章備份.

其他
  * 換機器前瓶頸在 ram (16G), 現在瓶頸在 disk io,
    disk loading 大概再多 5% 就撐不住了
  * 對某一時間, unique ip 佔上站人數 9x%
  * (2007/11的數據)某天下午一點, 站上使用者約 45% 在用 pcman/kkman 之類的
    anti-idle 掛在站上. 隨著 pcman 人口增加, 這個比例會再稍微上升
    (pcman default anti-idle, kkman 不是).
    在尖峰時段, 忘了. (偵測 anti-idle 的 code 已不存在)
  * 從 2006/3 到 2009/2,
    kkman 的使用率從 60% 降到 40%,
    pcman 的使用率從 25% 升到 50%
    (kkman 在 2009/4 推出新版, 目前還不能偵測, 因此沒有更新的數據)



--
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.24.159
jason050117:恩 略懂1F 05/27 01:47
andy199113 
andy199113:只是把教育部網站砍了而已吧 沒什麼厲害的吧2F 05/27 01:48
bee12:PTT:要壞掉啦>///<~~~~~~~~~3F 05/27 01:49
andy199113 
andy199113:實價登錄地圖也一樣 還不都拿官方資料改界面罷了4F 05/27 01:49
gasbomb:很有參考價值 推5F 05/27 01:58
soem:可是超好用呀6F 05/27 02:04
mike7689:OS竟然是Linux? 以前聽說是用BSD去架的?7F 05/27 02:04
legendmtg:最早是BSD沒錯8F 05/27 02:05
legendmtg:不對 最早是linux....
legendmtg:Linux -> FreeBSD -> Linux
mike7689:喔喔~大概可以理解,因為聽說FreeBSD對硬體比Linux挑..11F 05/27 02:11
mike7689:現在的Linux基本上不要太奇怪的硬體,一般伺服器都可以裝
mike7689:比FreeBSD還好養...
Gjoy:不是硬體的問題啦..當時freebsd的檔案系統發展落後linux14F 05/27 02:14
Gjoy:還有kernel對i/o處理的模式,linux有epoll
Gjoy:freebsd好像是kqueue吧..總之ptt對i/o要求高,就只能換os
soem:印象中FreeBSD5,6的這類問題有點大 7以後才有好一點17F 05/27 02:16
soem:不知有沒記錯
soem:但FreeBSD挑硬體確實是會有, 因為廠商不太放driver...
drkkimo:fbsd沒有epoll的確很難撐上萬個socket同時連進來20F 05/27 02:27
WLR:這搜尋介面大贏教育部的!21F 05/27 02:56

--
※ 看板: whatla 文章推薦值: 1 目前人氣: 0 累積人氣: 4655 
※ 本文也出現在看板: sayumiQ dinos 以及 1 個隱藏看板
作者 Gjoy 的最新發文:
點此顯示更多發文記錄
分享網址: 複製 已複製
( ̄︶ ̄)b MaxColin 說讚!
lecheck 轉錄至看板 whatla (使用連結) 時間:2017-10-31 11:21:12
r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇