看板 Gossiping作者 Goog1e (咕狗)標題 Re: [爆卦] 混淆網軍監測的方法 (代po)時間 Fri May 2 00:06:27 2014
※ 引述《Lavchi (拉維奇)》之銘言:
: 其實還有一種法方
: 你要知道實其人類對於讀閱是有強大的適應力
: 根據研究指出,中文字的序順並不會響影閱讀
: 所以可以在召號文裡面故意把序順倒顛
: 例如把「包圍總統府」變成「包圍統總府」
: 死宅宅工程師寫出來的式程是死的 人腦才是活的
: 版權沒有 隨意錄轉
: 引用或轉錄得記附上作者 Lavchi 即可 謝謝
雖然我是偽Google,但還是要宣揚一下正確觀念
各位資訊人大學時代有修過 information retrieval 就知道
information retrieval 會處理 順序 錯字 別名
因此原PO說要改順序 這麼做是無效的 (你可以試著搜尋看看)
統總府:
http://goo.gl/D6hyCz (順序錯仍會辨識成正確順序)
國民擋:
http://goo.gl/22riqO (打錯字仍會辨識成正確名稱)
KMT:
http://goo.gl/WgwNNp (用別名仍會辨識出通俗名稱)
也有人認為加空白沒有用只要把空白清掉就好 應該加符號
↑這也是錯誤想法
事實上
1. information retrieval 建 index 時就會把符號去除
這也是為什麼我們無法用搜尋引擎搜尋符號
例如搜尋逗號:
http://goo.gl/iiAg6Q
一般我們如果想搜尋特殊符號時
會使用該符號的名稱,如:wildcard sharp dollar sign 等
2. information retrieval 建 index 時並不會把空白去掉
"this is a book"
清掉空白變成 "thisisabook"
那還建什麼index?
所以說,加空白其實是目前較好的做法
加空白會讓搜尋變困難 (只是變難但不是找不到)
以上提供給各位參考
(小魯只是在大學部修過一學期的課而已,有錯的話請各位先進指正了)
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.27.78.169
※ 文章網址: http://www.ptt.cc/bbs/Gossiping/M.1398960390.A.3B4.html
※ 同主題文章:
Re: [爆卦] 混淆網軍監測的方法 (代po)
05-02 00:06 Goog1e.
→ yaya:國 民 黨 馬 英 無 限 期 支 持 台 灣 獨 立 總 統 腐1F 05/02 00:07
推 sofaly:還 滿 屌 的2F 05/02 00:07
→ yourdaddy:理論而已 我想能做到的世界上只有google有機會3F 05/02 00:08
推 aresa:你拿google和接政府案子的計劃比,會不會太兇悍了4F 05/02 00:09
→ sofaly:ufoon大 是先知阿 原來他早知道 (跪)6F 05/02 00:09
推 blaz:你拿中文去空白看看7F 05/02 00:09
→ yourdaddy:問題是鴿子沒有GOOGLE的技術 別擔心8F 05/02 00:09
→ v7q4:改成代號就好了 ma in 9 死 爛 蛆 舔 支 那 賣 歹 灣9F 05/02 00:09
推 Tenging:倒果為因 google輸入總統府會跑出總府統嗎?10F 05/02 00:09
打什麼能搜到什麼 就表示這兩個詞是同義的 是連在一起的
至於會不會跑出來 這是順序的問題 只要那個網頁夠重要就會在越上面
不然可以請總統府明天把網頁標題改成"總府統"
可以跟你保證搜尋總統府還是出現這個網站
→ aresa:不過要是騙得過google,幾乎等於騙過大部份系統了11F 05/02 00:09
推 legendmtg:我不太相信政府寫的程式對中文辨別有做得那麼好12F 05/02 00:09
推 ozz987:手倉 斃 ma IN 救13F 05/02 00:09
※ 編輯: Goog1e (163.27.78.169), 05/02/2014 00:11:47
→ Tenging:就算有也會有正確順序的垃圾資訊跑出來給黨工看14F 05/02 00:10
推 chadliu:中文的IR要做得好 我看他們沒那技術XD17F 05/02 00:11
Yahoo 有做注音這塊 不過目前 Google 好像還沒有 XD
但我相信政府的系統應該不會做啦XDDDDD
※ 編輯: Goog1e (163.27.78.169), 05/02/2014 00:14:03
→ Leoreo:既然符號會清掉⑨代替9如何21F 05/02 00:14
推 momoCry:政府外包的那種案子跟google比太嚴苛了24F 05/02 00:15
推 odsan:木倉~sha~M阿~英~nine 手丁~人到~國~民~黨25F 05/02 00:15
推 yfefey:我猜上一篇的做法,是針警方只拿到純文字檔,自己做前處理26F 05/02 00:15
推 aresa:其實...有做,而且比你們想的都還強27F 05/02 00:15
→ ji394su33000:CKIP我覺得是拿來練IEEE的 最後還是去編字典 苦情阿~28F 05/02 00:16
→ aresa:團隊裡鄉民不少,而且都很聰明,尤其對網路使用者的習性29F 05/02 00:16
我錯了QQ 真的有做
http://goo.gl/mV0ugN
Google
世界中のあらゆる情報を検索するためのツールを提供しています。さまざまな検索機能を活用して、お探しの情報を見つけてください。 ...
→ Leoreo:有人要開發PTT直行文轉換器嗎XD30F 05/02 00:16
推 Asster:覺得很可悲,台灣的網路居然也像中國一樣要一堆符號了..31F 05/02 00:16
※ 編輯: Goog1e (163.27.78.169), 05/02/2014 00:17:40
→ Asster:以前看文章都還笑他們的,今天我們的台灣也...QQ32F 05/02 00:17
推 reaturn:我去年買了個錶 這樣子?33F 05/02 00:17
→ bugbook:6719 6638 2876 1172 0149 9735F 05/02 00:19
推 reaturn:結果搞到後來,最簡單的方式其實就是換掉國民黨…
不過雖然簡單但是如果○○○不覺醒也沒用36F 05/02 00:20
推 aresa:其實順序有差的,你提的字都很少,排列組合極少38F 05/02 00:21
→ aresa:給你一篇文章裡有100個詞的,根本無法正確組句41F 05/02 00:21
→ aresa:而且google方法是紀錄你是否重新搜尋,建立詞與詞的聯結43F 05/02 00:22
推 nojoe:不能跟google比啦44F 05/02 00:22
→ aresa:才會有那種打e04連得到幹的情況,總之,滿複雜的46F 05/02 00:23
→ ji394su33000:2012年中有陣子稍微熱門的就是中文字代換英文字密碼因為某資安論壇開講公佈像第一名易破解的密碼叫
"PASSWORD" 後來就有好多人認為中文輸入法代換可讀性的作法非常有密碼強度
不然普遍西方人記密碼都是一些簡單的英文單字47F 05/02 00:24
→ ji394su33000:一句話很難判斷分拆字詞的點 只能靠詞性去組
當然有阿 排列組合可以強化密碼強度 當然暴力破解57F 05/02 00:31
→ ji394su33000:以宏觀來看就是時間問題 不過時間能造成問題他就有效回到中文上 這種東西要靠量去擴充他的字典60F 05/02 00:33
→ ji394su33000:所以其實也不是做不到 我一直覺得PTT現在有網址生成方便站外連結就可以讓RSS讀 明顯降低門檻
就是data mining的好材料65F 05/02 00:38
推 Bookdaily:推。不過我認為首要是資訊完整,如果因為怕人查,
那資訊如何流通?70F 05/02 00:44
→ ji394su33000:哦我覺得極權政府對於言論自由的箝制普遍有其針對性像LYS好了大家都知道是糗爺 689是什麼 9.2是什麼
那這並不妨礙資訊流通阿 所以只要有專職人員監管
將使用者們意識上代換的字詞做攔截 那其實也就跟正確的字詞無異(就多一個嘛) 這就是人的厲害之處
程式就很難寫出這麼彈性的做法
同樣的不可能包羅萬象面面俱到 所以中國網友很愛縮寫養成這種怪習慣是怎麼來的?
其實普遍網站的經營者手上都會有一份禁字表
這不只是極權政府了 比如說兒童色情各式各樣的關鍵字經營者在登載資訊時就會避免這類字詞出現 像台灣
禁制網路販賣醫療用品 那你賣個口罩就必須躲過這個字百度也可以餵它六四天安門事件阿 甚至反饋給你假訊息你可以查到人山人海的圖片 可就查不到坦克車壓學生這才是真正的限制言論自由 真正的侵犯人權73F 05/02 00:54
--