解析分類信息網(wǎng)站防范垃圾信息的四個有效方法_建站經(jīng)驗教程

教程Tag：暫無Tag,歡迎添加,賺取U幣!

推薦：10個小細節(jié)大大改善用戶體驗
以下是我做美工的兩年生活中一條條總結(jié)出來的經(jīng)驗，每一點都是我常用的，雖然不是什么大學(xué)問，但我覺得要互相學(xué)習(xí)才能提高，所以現(xiàn)在拿出來和大家一起分享，如果你覺得實用就拿去試試，然后留個

最近幾天百度和Google口水戰(zhàn)打得很兇，百度把搜索不公正歸于垃圾信息，而Google 則反唇相譏，說靠機器、技術(shù)手段來反垃圾已經(jīng)成為通行法則，百度的說法僅僅是一個借口而已。不管誰對誰錯，一個不爭的事實是垃圾信息已經(jīng)成為如今的信息時代的公敵。記得還在去年的時候，趕集和58的二手車欄目充斥著異地的走私車的信息，現(xiàn)在這些垃圾信息基本沒有了，其他欄目的垃圾信息的比例也大大的降低了。但是除了這些商業(yè)型的分類信息網(wǎng)站，其他的很多分類信息網(wǎng)站中的垃圾信息依然很多。

在這里，本人愿意與各大分類信息網(wǎng)站的站長們分析下反垃圾技術(shù)及心得。這些方法簡單易行，對于一個熟悉編程的站長來說是比較容易實現(xiàn)的。實踐證明，通過這些方法，列表網(wǎng)能夠很好的將垃圾信息控制在一個可以接受的范圍之內(nèi)。

方法一通過提取信息里的聯(lián)系方式，建立聯(lián)系方式黑名單

垃圾信息制造者不管IP如何變、內(nèi)容如何變，但是聯(lián)系方式是不變的。我們可以根據(jù)這一點來建立聯(lián)系方式黑名單數(shù)據(jù)庫。目前中國用戶用的最多的聯(lián)系方式有：電話號碼、QQ號、網(wǎng)址、Email地址等。這些聯(lián)系方式都有一定的特征，很容易通過正則表達式提取出來。

那么具體如何建立黑名單呢?列表網(wǎng)的做法是：如果一條信息被用戶惡評五次，那么該信息自動標(biāo)記為惡評狀態(tài)并隱藏。經(jīng)確認的被用戶投訴的信息也被置于惡評狀態(tài)。當(dāng)一條信息被置于惡評的時候，該惡評信息里的所有聯(lián)系方式均被存入黑名單數(shù)據(jù)庫中，并且出現(xiàn)頻率字段加1。這樣我們就有了聯(lián)系方式黑名單數(shù)據(jù)庫了，該數(shù)據(jù)庫有聯(lián)系方式的出現(xiàn)頻率及最新出現(xiàn)時間等信息。所有這些操作除了用戶投訴需要人工辨別外，其他的都是機器自動完成的。

有了這個黑名單之后就可以通過它來鑒別垃圾信息了。怎么鑒別垃圾信息呢?列表網(wǎng)的做法是：機器定時地對用戶發(fā)布的信息進行檢查。如果該信息里面含有黑名單數(shù)據(jù)庫里的聯(lián)系方式，并且該聯(lián)系方式的出現(xiàn)頻率大于1且最近出現(xiàn)的時間是半年以內(nèi)，那么該信息自動刪除。限定半年是給該發(fā)布者一個改過自新的機會。

以上是這個方式的簡單描述。其實要實現(xiàn)起來還有許多的細節(jié)需要考慮，還要避免懲罰過度。比如提取聯(lián)系方式之前，需要對數(shù)據(jù)進行處理，比如把1、①、Ⅰ等改為1、刪除數(shù)字間的空格等;用戶投訴為中介的信息不應(yīng)該做惡評，而是將之改為中介，同時將聯(lián)系電話放入中介數(shù)據(jù)庫中，以后該中介發(fā)布房屋信息的時候系統(tǒng)會自動識別為中介信息。如果中介信息也被惡評的話，那么該中介以后就發(fā)不了信息了，這樣有點過了。

另外，考慮一種情況，如果一個用戶在培訓(xùn)類目里發(fā)布了大量的虛假招生信息，如果該用戶想發(fā)布房屋信息，這個時候如果該用戶的聯(lián)系方式落入了黑名單的話他是發(fā)不了房屋信息的。一個比較好的解決方法是在黑名單數(shù)據(jù)庫里增加類目字段。通過黑名單判斷垃圾信息的時候還需要檢查類目字段。這樣就避免了以上情況的發(fā)生。

方法二鑒別并刪除異地商家信息

分類信息網(wǎng)站的特點之一就是本地性，本地用戶到分類信息網(wǎng)站上來看的就是本地的租房、交友、服務(wù)等信息。因此如果信息里面出現(xiàn)異地的電話號碼的話則應(yīng)該作為垃圾信息處理。這個可以通過手機屬地數(shù)據(jù)庫及電話區(qū)號數(shù)據(jù)庫來判斷。并不是所有的類目都適用這條方法的，像交友、尋人類目就不應(yīng)該采用這種方法。但是像二手車類目、服務(wù)類目則完全可以采用這種方法過濾掉異地信息。

方法三限制某些類目同一天內(nèi)一個用戶只能發(fā)布一條信息

重復(fù)的信息太多了，對用戶的體驗也不好。在這里重復(fù)信息的定義是：同一個用戶或商家(包括商家聘請的信息發(fā)布者)發(fā)布的內(nèi)容相同或相似的信息。這些類目包括：生活服務(wù)、商務(wù)服務(wù)、培訓(xùn)、交友、車輛等。那么如何避免重復(fù)信息的發(fā)布呢?列表網(wǎng)的做法是：在這些類目中用戶一天內(nèi)發(fā)布的所有信息中只保留最近發(fā)布的信息，其他信息則刪除。

方法四關(guān)鍵字過濾

最后不要忘了關(guān)鍵字過濾。一些有害的、敏感的關(guān)鍵字是肯定需要過濾的。

以上是分類信息網(wǎng)站可以采納的反垃圾信息的簡單的行之有效的幾種方式。如果能配合貝葉斯算法過濾垃圾信息那就更完美了。

采用貝葉斯算法過濾垃圾信息的思路是：在已經(jīng)人工的確認為垃圾信息及非垃圾信息的標(biāo)本庫中，對標(biāo)本信息中的每個分詞進行采樣，建立分詞權(quán)重數(shù)據(jù)庫，屬于垃圾信息中的分詞權(quán)重增加，而正常信息中的分詞則權(quán)重減少。當(dāng)分詞權(quán)重數(shù)據(jù)庫建立起來之后就可以根據(jù)該數(shù)據(jù)庫對新增的信息計算每個分詞的權(quán)重。如果權(quán)重總值超過了預(yù)定義的某個閾值的話，那么就可以判斷該信息為垃圾信息了。隨著信息不斷的判斷及被人工糾正錯誤，該分詞權(quán)重數(shù)據(jù)庫會越來越精確，判斷的準(zhǔn)確率也會越來越高。

對于分類信息來說，不同類目的分詞的權(quán)重是不一樣的，因為不同類目使用到的分詞的頻率是有區(qū)別的。因此，應(yīng)該對于不同的類目使用不同的分詞權(quán)重數(shù)據(jù)庫。

貝葉斯算法實現(xiàn)起來并不是很難，網(wǎng)上有現(xiàn)成的算法可以使用。最難的是對漢語語句的準(zhǔn)確分詞。除了需要龐大的分詞數(shù)據(jù)庫外，還需要若干臺具有高性能CPU的服務(wù)器來對每天新增的數(shù)萬條信息進行分詞及權(quán)重計算。這將是一個判斷精確度和成本都很高的反垃圾信息的技術(shù)。

分享：更換域名對網(wǎng)站帶來的影響及補救措施
繼上次發(fā)表自己社區(qū)門戶一月運行盤點后，我站面臨換域名的問題，本人把換域名的問題心得總結(jié)起來，希望對各位有點作用。由于網(wǎng)站的發(fā)展需要，更換了一個.COM域名，換域名給網(wǎng)站所帶來的風(fēng)險很大

來源：模板無憂/所屬分類：建站經(jīng)驗教程/更新時間：2009-09-16

[收藏][報錯][返回列表]

相關(guān)建站經(jīng)驗教程：

建站經(jīng)驗教程Rss訂閱網(wǎng)站運營教程搜索

建站經(jīng)驗教程推薦

猜你也喜歡看這些

相關(guān)鏈接：
復(fù)制本頁鏈接| 搜索解析分類信息網(wǎng)站防范垃圾信息的四個有效方法
教程說明：
建站經(jīng)驗教程-解析分類信息網(wǎng)站防范垃圾信息的四個有效方法。

日韩天天综合网_野战两个奶头被亲到高潮_亚洲日韩欧美精品综合_av女人天堂污污污_视频一区**字幕无弹窗_国产亚洲欧美小视频_国内性爱精品在线免费视频_国产一级电影在线播放_日韩欧美内地福利_亚洲一二三不卡片区

解析分類信息網(wǎng)站防范垃圾信息的四個有效方法_建站經(jīng)驗教程

建站經(jīng)驗教程Rss訂閱網(wǎng)站運營教程搜索

建站經(jīng)驗教程推薦

猜你也喜歡看這些