顯示廣告
隱藏 ✕
※ 本文為 e6148532 轉寄自 ptt.cc 更新時間: 2014-05-02 01:57:09
看板 Gossiping
作者 Goog1e (咕狗)
標題 Re: [爆卦] 混淆網軍監測的方法 (代po)
時間 Fri May  2 00:06:27 2014


※ 引述《Lavchi (拉維奇)》之銘言:
: 其實還有一種法方
: 你要知道實其人類對於讀閱是有強大的適應力
: 根據研究指出,中文字的序順並不會響影閱讀
: 所以可以在召號文裡面故意把序順倒顛
: 例如把「包圍總統府」變成「包圍統總府」
: 死宅宅工程師寫出來的式程是死的 人腦才是活的
: 版權沒有 隨意錄轉
: 引用或轉錄得記附上作者 Lavchi 即可 謝謝


雖然我是偽Google,但還是要宣揚一下正確觀念


各位資訊人大學時代有修過 information retrieval 就知道

information retrieval 會處理 順序 錯字 別名

因此原PO說要改順序  這麼做是無效的  (你可以試著搜尋看看)

統總府:http://goo.gl/D6hyCz  (順序錯仍會辨識成正確順序)

國民擋:http://goo.gl/22riqO  (打錯字仍會辨識成正確名稱)

KMT:   http://goo.gl/WgwNNp  (用別名仍會辨識出通俗名稱)


也有人認為加空白沒有用只要把空白清掉就好  應該加符號

            ↑這也是錯誤想法

事實上

1. information retrieval 建 index 時就會把符號去除

   這也是為什麼我們無法用搜尋引擎搜尋符號

   例如搜尋逗號:http://goo.gl/iiAg6Q

   一般我們如果想搜尋特殊符號時

   會使用該符號的名稱,如:wildcard sharp dollar sign 等

2. information retrieval 建 index 時並不會把空白去掉

   "this is a book"

   清掉空白變成 "thisisabook"

   那還建什麼index?


所以說,加空白其實是目前較好的做法

加空白會讓搜尋變困難 (只是變難但不是找不到)



以上提供給各位參考

(小魯只是在大學部修過一學期的課而已,有錯的話請各位先進指正了)


--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.27.78.169
※ 文章網址: http://www.ptt.cc/bbs/Gossiping/M.1398960390.A.3B4.html
yaya:國 民 黨 馬 英 無 限 期 支 持 台 灣 獨 立 總 統 腐1F 05/02 00:07
sofaly:還             滿               屌            的2F 05/02 00:07
yourdaddy:理論而已  我想能做到的世界上只有google有機會3F 05/02 00:08
aresa:你拿google和接政府案子的計劃比,會不會太兇悍了4F 05/02 00:09
fish3932000:你舉的是搜尋,如果被搜尋也會這樣嗎5F 05/02 00:09
sofaly:ufoon大 是先知阿 原來他早知道 (跪)6F 05/02 00:09
blaz:你拿中文去空白看看7F 05/02 00:09
yourdaddy:問題是鴿子沒有GOOGLE的技術  別擔心8F 05/02 00:09
v7q4:改成代號就好了 ma in 9 死 爛 蛆 舔 支 那 賣 歹 灣9F 05/02 00:09
Tenging:倒果為因 google輸入總統府會跑出總府統嗎?10F 05/02 00:09

打什麼能搜到什麼  就表示這兩個詞是同義的  是連在一起的

至於會不會跑出來  這是順序的問題  只要那個網頁夠重要就會在越上面

不然可以請總統府明天把網頁標題改成"總府統"

可以跟你保證搜尋總統府還是出現這個網站

aresa:不過要是騙得過google,幾乎等於騙過大部份系統了11F 05/02 00:09
legendmtg:我不太相信政府寫的程式對中文辨別有做得那麼好12F 05/02 00:09
ozz987:手倉  斃  ma  IN  救13F 05/02 00:09
※ 編輯: Goog1e (163.27.78.169), 05/02/2014 00:11:47
Tenging:就算有也會有正確順序的垃圾資訊跑出來給黨工看14F 05/02 00:10
otaku5566:瑪瓔韮陋釢15F 05/02 00:10
Kanecart:寫直的,直式書寫。16F 05/02 00:10
chadliu:中文的IR要做得好 我看他們沒那技術XD17F 05/02 00:11
issuperchild:a83 u/ ru.3 vu84 w9618F 05/02 00:12
issuperchild:這樣搜尋的到嗎?

Yahoo 有做注音這塊  不過目前 Google 好像還沒有 XD

但我相信政府的系統應該不會做啦XDDDDD
※ 編輯: Goog1e (163.27.78.169), 05/02/2014 00:14:03
butterfly21:推 應該還是加空白比較有用20F 05/02 00:13
Leoreo:既然符號會清掉⑨代替9如何21F 05/02 00:14
cangming:DELETE FROM *22F 05/02 00:14
fish3932000:原來如此23F 05/02 00:14
momoCry:政府外包的那種案子跟google比太嚴苛了24F 05/02 00:15
odsan:木倉~sha~M阿~英~nine 手丁~人到~國~民~黨25F 05/02 00:15
yfefey:我猜上一篇的做法,是針警方只拿到純文字檔,自己做前處理26F 05/02 00:15
aresa:其實...有做,而且比你們想的都還強27F 05/02 00:15
ji394su33000:CKIP我覺得是拿來練IEEE的 最後還是去編字典 苦情阿~28F 05/02 00:16
aresa:團隊裡鄉民不少,而且都很聰明,尤其對網路使用者的習性29F 05/02 00:16

我錯了QQ  真的有做

http://goo.gl/mV0ugN
Google
世界中のあらゆる情報を検索するためのツールを提供しています。さまざまな検索機能を活用して、お探しの情報を見つけてください。 ...

 

Leoreo:有人要開發PTT直行文轉換器嗎XD30F 05/02 00:16
Asster:覺得很可悲,台灣的網路居然也像中國一樣要一堆符號了..31F 05/02 00:16
※ 編輯: Goog1e (163.27.78.169), 05/02/2014 00:17:40
Asster:以前看文章都還笑他們的,今天我們的台灣也...QQ32F 05/02 00:17
reaturn:我去年買了個錶  這樣子?33F 05/02 00:17
contrav:直行文中國的朋友早就做出來了 http://typeset.ipcn.org/34F 05/02 00:19
假古文.NEO.RETRO.XpEX.1.0 | 传统中文排版工具 从右到左 从上到下 - Classic Chinese Character Typeset - typeset.ipcn.org 假古文.NEO.RETRO.XpEX.1.0 | 传统中文排版工具 从右到左 从上到下 - Classic Chinese Character Typeset IPCN Windtear typeset.ipcn.org ...

 
bugbook:6719 6638 2876 1172 0149 9735F 05/02 00:19
reaturn:結果搞到後來,最簡單的方式其實就是換掉國民黨…36F 05/02 00:20
reaturn:不過雖然簡單但是如果○○○不覺醒也沒用
aresa:其實順序有差的,你提的字都很少,排列組合極少38F 05/02 00:21
otaku5566:以後只能用圖片溝通了 http://ppt.cc/J9Zk39F 05/02 00:21
ji394su33000:用錯輸入法導出正確結果 是跑演算法加權出來的可能值40F 05/02 00:21
aresa:給你一篇文章裡有100個詞的,根本無法正確組句41F 05/02 00:21
ji394su33000:稍微不怎麼熱門的字就不會有什麼正確結果42F 05/02 00:22
aresa:而且google方法是紀錄你是否重新搜尋,建立詞與詞的聯結43F 05/02 00:22
nojoe:不能跟google比啦44F 05/02 00:22
ji394su33000:你多用幾個名詞試試看就知道大概都是沒有的45F 05/02 00:22
aresa:才會有那種打e04連得到幹的情況,總之,滿複雜的46F 05/02 00:23
ji394su33000:2012年中有陣子稍微熱門的就是中文字代換英文字密碼47F 05/02 00:24
ji394su33000:因為某資安論壇開講公佈像第一名易破解的密碼叫
ji394su33000:"PASSWORD" 後來就有好多人認為中文輸入法代換可讀
ji394su33000:性的作法非常有密碼強度
ji394su33000:不然普遍西方人記密碼都是一些簡單的英文單字
shyshyan:所以橫轉直有用嗎?52F 05/02 00:27
ji394su33000:一個?萬字的字典就可以破掉30%人的密碼 太糟糕了53F 05/02 00:27
naminono:所以夾雜數字會好一點嗎@@54F 05/02 00:28
ji394su33000:不過中文斷詞系統難做主要是因為英文單字相比55F 05/02 00:29
fish3932000:所以順序+空白或是特殊符號會有加強效果嗎56F 05/02 00:30
ji394su33000:一句話很難判斷分拆字詞的點 只能靠詞性去組57F 05/02 00:31
ji394su33000:當然有阿 排列組合可以強化密碼強度 當然暴力破解
king22649:ㄋㄚˋ ㄓㄨˋ 一ㄣㄨㄣˊ ㄋ?59F 05/02 00:33
ji394su33000:以宏觀來看就是時間問題 不過時間能造成問題他就有效60F 05/02 00:33
ji394su33000:回到中文上 這種東西要靠量去擴充他的字典
monstermimic:加*不行麼62F 05/02 00:35
ji394su33000:一堆網站都會有所謂的"標籤"來代表熱度63F 05/02 00:36
ji394su33000:http://ppt.cc/yE9Q 就像這種東西
ji394su33000:所以其實也不是做不到 我一直覺得PTT現在有網址生成65F 05/02 00:38
ji394su33000:方便站外連結就可以讓RSS讀 明顯降低門檻
ji394su33000:就是data mining的好材料
naminono:夾雜數字呢@@?68F 05/02 00:40
ji394su33000:不必再拿程式爬 用現成的東西就好了69F 05/02 00:42
Bookdaily:推。不過我認為首要是資訊完整,如果因為怕人查,70F 05/02 00:44
Bookdaily:那資訊如何流通?
ji394su33000:剛的例子不太好 換一個http://ppt.cc/mtdb72F 05/02 00:46
ji394su33000:哦我覺得極權政府對於言論自由的箝制普遍有其針對性73F 05/02 00:54
ji394su33000:像LYS好了大家都知道是糗爺 689是什麼 9.2是什麼
ji394su33000:那這並不妨礙資訊流通阿 所以只要有專職人員監管
ji394su33000:將使用者們意識上代換的字詞做攔截 那其實也就跟正確
ji394su33000:的字詞無異(就多一個嘛) 這就是人的厲害之處
ji394su33000:程式就很難寫出這麼彈性的做法
ji394su33000:同樣的不可能包羅萬象面面俱到 所以中國網友很愛縮寫
ji394su33000:養成這種怪習慣是怎麼來的?
ji394su33000:其實普遍網站的經營者手上都會有一份禁字表
ji394su33000:這不只是極權政府了 比如說兒童色情各式各樣的關鍵字
ji394su33000:經營者在登載資訊時就會避免這類字詞出現 像台灣
ji394su33000:禁制網路販賣醫療用品 那你賣個口罩就必須躲過這個字
ji394su33000:百度也可以餵它六四天安門事件阿 甚至反饋給你假訊息
ji394su33000:你可以查到人山人海的圖片 可就查不到坦克車壓學生
ji394su33000:這才是真正的限制言論自由 真正的侵犯人權

--
※ 看板: Gossiping 文章推薦值: 1 目前人氣: 0 累積人氣: 1261 
作者 Goog1e 的最新發文:
點此顯示更多發文記錄
分享網址: 複製 已複製
1樓 時間: 2014-05-02 07:24:23 (台灣)
+1 05-02 07:24 TW
當年連戰喊要幹掉陳水扁都沒事,我們現在卻是草木皆兵,這明顯言論自由的倒退
r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇