看板 Gossiping作者 blaz (開花爺爺)標題 Re: [爆卦] 混淆網軍監測的方法 (代po)時間 Thu May 1 23:48:31 2014
※ 引述《butterfly21 (butterfly21)》之銘言:
: 剛剛提完關鍵字的機制之後
: 馬上有大大來信提供意見<(_ _)>
: == 正文開始 ==
: 林北臭宅軟體工程師啦
: 剛好我們公司也是在搞網路輿情
: 號稱監控數百個網站 兩千多個粉絲團
: 前面大家提到很多方法都是針對搜尋的關鍵字做處理
: 這個切入點非常好 要針對搜尋引擎的特性做應對
: 我再提供一個做法 就是在關鍵字中間加入空白
: 例如 馬英九 變成 馬 英 九
: 對搜尋引擎而言 必須使用模糊搜尋 搜尋效率與精確度大幅下降
: 不但不會增加閱讀困擾 也不用埋入多餘的關鍵字或在關鍵字間加入贅字
: 號召大家發文亂加空白 題供參考參考
不才當過幾年工程師
說實在的把空白清除再搜尋只是多一行程式碼
真的要讓資料搜尋難過建議搭配前一篇的文字錯序
再隨機插入一些特殊符號
例如 * 跟 ? 這類資料庫常用的萬用字元
如果當初寫程式的人偷工就會發生非常有趣的事
重點是把你的關鍵字加工
--
Sent from my Android
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.34.133.6
※ 文章網址: http://www.ptt.cc/bbs/Gossiping/M.1398959314.A.6C0.html
※ 同主題文章:
Re: [爆卦] 混淆網軍監測的方法 (代po)
05-01 23:48 blaz.
→ bigbite:把特殊字元濾掉也是一行程式碼= =3F 05/01 23:49
推 jack2:加個全形空白不知道會怎麼樣?4F 05/01 23:49
→ dian9:所以要錯別字加 顛倒順序嗎7F 05/01 23:50
推 ilohoo:外包的你想能多好8F 05/01 23:50
推 aresa:有興趣的可以去研究一下斷詞系統,目前中文斷字應該都用他的9F 05/01 23:50
推 y90413:** ?? ****** ??****10F 05/01 23:50
推 odsan:@_女良+九*干?你>英)馬11F 05/01 23:51
→ goodjeff:****************12F 05/01 23:51
推 alan99:~!@#$%^&*()_+|{}":?></*-+14F 05/01 23:51
推 zone0317:反服貿石虎路過號召捷運台獨核四核一核二核三風車15F 05/01 23:51
推 ttsieg:馬α英>九。吃>屎17F 05/01 23:51
→ odsan:突然覺得我們真可悲 好像活在對面的世界...18F 05/01 23:52
推 Y1999:所以大家都誤會唐香多龍了,他用心良苦阿20F 05/01 23:52
推 yaya:國 民 黨 馬 英 久 無 限 期 支 持 台 灣 獨 立21F 05/01 23:52
→ x007:馬*英(.人.)九!25F 05/01 23:53
推 Tenging:幹!娘!你E九E英Q馬26F 05/01 23:53
推 alvar:@34*%(*%【>&#<】:)‵(:)-*(:〝〞27F 05/01 23:53
推 deepdish:煞*氣a丁*貴*明*天*會*跟*你*一*起*宅*在*電*腦*前*嗎?28F 05/01 23:53
推 aresa:好吧,其實你們用什麼方式藏都沒有用,因為現在文字探勘29F 05/01 23:53
→ dian9:習$ 糸柬 中 ^ 像醬嗎30F 05/01 23:53
推 vi000246:特殊字元也能濾掉 建乂議一像乂這丿樣31F 05/01 23:53
→ aresa:也會算一篇文章的權威度,目前是看長度和回應次數33F 05/01 23:54
→ alvar:馬(. 人 .)34F 05/01 23:54
→ aresa:即使文章可以騙過電腦,但眾多使用者告訴電腦這篇文章有問題在零碎的文字中找尋各種組合,如果過濾出特別關鍵字35F 05/01 23:54
→ blaz:面上那個有專名詞的,我沒他要載卸庫料資好嗎 XD37F 05/01 23:55
→ dian9:次數回應喔 這難好躲39F 05/01 23:55
推 mogason:黑箱服貿 反核 反瘋車 石虎 太 陽 花 總 統 府 行 政 院40F 05/01 23:55
→ aresa:還是會被系統示警,依舊逃不掉41F 05/01 23:55
推 otaku5566:馬( ′-`)y-~英(  ̄ 灬 ̄)九o(〒﹏〒)o露(∩_∩)奶42F 05/01 23:56
→ aresa:再講下去我可能有危險,唯一能保護使用者的,只有PTT43F 05/01 23:56
→ aresa:顆顆,如果他們想的話45F 05/01 23:56
→ dian9:所以當樂趣只能?? 也好 XD~~~ 變形體有趣很~46F 05/01 23:57
→ ken90242:不知道加上一大堆特殊符號會怎樣呢顆顆48F 05/01 23:57
推 alan99:果如把BB5內文的殊特符號用色黑的........49F 05/01 23:57
推 meaning12:ota ku5566太 好 笑了XDDD52F 05/01 23:58
推 Tenging:反四核 馬ˍ九 屁 眼養54F 05/01 23:59
→ biaw:馬英九* ←金小刀55F 05/02 00:01
→ Plants:超@好*校%der56F 05/02 00:01
推 tideecho:為了#網#軍, 人人打#火#星#文57F 05/02 00:03
推 DarkerDuck:''<>******* SELECT * FROM user62F 05/02 00:06
推 tAmoloko:推b大!!!!!!!!!!!65F 05/02 00:11
推 ayumina11:我}%#~快}ㄐㄑ笑|ˊㄐㄔㄗ死{ㄓㄓ了66F 05/02 00:11
推 micsue:_ _ 養的 馬央八67F 05/02 00:11
→ Leoreo:Ma央⑨的算術教室 開始囉~68F 05/02 00:12
推 cangming:DELETE * FROM nuclear69F 05/02 00:12
→ Leoreo:幹 其實我一點都笑不出來 這跟26要把64打成63+1有啥不同70F 05/02 00:12
推 elle:注音文原來很重要阿71F 05/02 00:13
推 nojoe:$馬&久*英 吃 >便 <大73F 05/02 00:15
推 dian9:口艾口幼~75F 05/02 00:17
→ ht0813tw:加個贅字或是[a-zA-Z0-9]的符號在中間也行77F 05/02 00:18
推 v7q4:是'誰"吵'醒@本*將?軍\79F 05/02 00:20
→ conanai:這幾篇超亂的,跟中國沒兩樣阿QQ80F 05/02 00:23
推 Raynor:rm -rf /81F 05/02 00:27
推 NAHAy:這種事情去逛逛百度就可學到一堆 26很內行的83F 05/02 00:39
推 nsaids:尸手尸火 廿中月大 大九 是人渣85F 05/02 00:52
→ js9150812:馬/英.久@.@ 趕快出來><吃大便拉86F 05/02 00:55
--
--
→
jengyic
台灣 05-02 02:05
土立土及正攴腐 不知道異體字表有沒有用?
→
Agliny
台灣 05-02 02:12
\反\核\反\黑\箱\服\貿
→
pigss
台灣 05-02 02:22
讓注音文重現江湖不就得了
→
skyline5466
台灣 05-02 04:43
現在喊反清復明會不會被鴿子約談?
(blaz.): Re: [爆卦] 混淆網軍監測的方法 (代po) - Gossiping板