批量檢測被百度收錄的死鏈的方法_建站經(jīng)驗教程
推薦:論腳本時代:盤點那些節(jié)省時間的自動化軟件Word我們可以使用宏來自動工作,那如果我們要每天去刷新職位或簡歷,下載指定文件,發(fā)表文章到各網(wǎng)站,上傳房源到各大網(wǎng)站又該怎么辦呢?
前段時間服務(wù)器被入侵,掛了很多博彩之類的黑頁,而且全部被百度收錄。
現(xiàn)在把漏洞補好了,但刪除黑頁文件以后成了死鏈,要怎么讓百度刪除收錄呢?
在網(wǎng)上找了一下,似乎只有檢測網(wǎng)址是否被收錄的工具,而沒有檢測收錄的是不是死鏈的工具。
自己理清了下思路,找辦法找出了所有被收錄的死鏈,并寫下這篇文章。
不知道有沒有更好的方法,大家可以告訴我,先分享給大家,如果有大神請忽視或者告訴我更好的方法,一起學(xué)習(xí)交流吧。
下面教程開始
先在百度找到xenu可以模擬爬蟲爬取所有連接,我下載了個漢化版。
我們先用這個工具查詢所有被收錄的頁面。
打開軟件,填入簡版百度site網(wǎng)站地址,之所以用簡版是可以減少鏈接查詢時間和內(nèi)容。(請把xxx.bizcn.com換成你的網(wǎng)址)
http://www.baidu.com/s?ie=utf-8&tn=baidulocal&wd=site%3Axxx.bizcn.com

等待檢測完成。

點擊導(dǎo)出為制表符分隔的文件。

導(dǎo)出的文件,我們可以看到格式是:網(wǎng)址+空格+狀態(tài)碼

那么寫一個正則,把需要的網(wǎng)址提取出來就行,比如www.baidu.com下的404頁面就是
/http:\/\/www.baidu.com(.*?)\s404/i
(以http://www.baidu.com開頭,\s代表空格,404,/i代表匹配大小寫)
不會正則怎么辦?

為了方便大家,我把文件作了修改,大家只要把head改成標致性開頭,state改成狀態(tài)碼就行,file改成導(dǎo)出的文件路徑就行。
head怎么改,舉個例子,
你的網(wǎng)站是http://www.baidu.com/abc.html,那么你就寫http://www.baidu.com/
你的網(wǎng)站是http://abc.baidu.com/abc.html,那么你就寫http://abc.baidu.com/
把正則寫入php,在php環(huán)境下運行g(shù)et.php。那么結(jié)果就出來了。

這時你只需要全選,復(fù)制到一個txt文件,上傳到網(wǎng)站空間,再到百度站長平臺死鏈提交填入文件路徑就行就可以。

我們知道,思路是通過爬取找出所有被收錄的鏈接,然后按條件列出來而已。
這樣的話,只要把開頭輸入的site網(wǎng)址改一下,也可以查詢其他搜索引擎的收錄。
把正則改一下,可以獲得如標題等其他內(nèi)容。在此就不一一敘述。
來源:盧松松博客(微信/QQ號:13340454),歡迎分享本文,轉(zhuǎn)載請保留出處!
分享:云鎖Linux版服務(wù)器安全軟件初體驗云鎖放出Linux版后,我第一時間就下載安裝,通過這幾天的使用,有了一些心得體會,產(chǎn)品有很多優(yōu)點,果然不出我所料,其中一些對我來說還算是驚喜
- 論腳本時代:盤點那些節(jié)省時間的自動化軟件
- 云鎖Linux版服務(wù)器安全軟件初體驗
- 安全狗安全云主機背后的故事
- 【2014年終總結(jié)】你關(guān)注的人,決定你看到的世界
- 備案不用關(guān)閉網(wǎng)站的9種方法
- 2014屌絲逆襲千人大會感悟:成功篇
- 一統(tǒng)服務(wù)器桌面:安全狗新增殺毒功能
- 百度快照是如何被黑客篡改的
- 我是如何幫助創(chuàng)業(yè)公司改進企業(yè)工作的
- 網(wǎng)站加速哪家強? 免費CDN服務(wù)評測大PK
- 深度解密微信瘋讀狂加粉的伎倆
- (強文)互聯(lián)網(wǎng)高手教你如何搜集你想要的信息
- 相關(guān)鏈接:
- 教程說明:
建站經(jīng)驗教程-批量檢測被百度收錄的死鏈的方法
。