前段時(shí)間服務(wù)器被入侵,掛了很多博彩之類的黑頁(yè),而且全部被百度收錄。
現(xiàn)在把漏洞補(bǔ)好了,但刪除黑頁(yè)文件以后成了死鏈,要怎么讓百度刪除收錄呢?
在網(wǎng)上找了一下,似乎只有檢測(cè)網(wǎng)址是否被收錄的工具,而沒(méi)有檢測(cè)收錄的是不是死鏈的工具。
自己理清了下思路,找辦法找出了所有被收錄的死鏈,并寫下這篇文章。
不知道有沒(méi)有更好的方法,大家可以告訴我,先分享給大家,如果有大神請(qǐng)忽視或者告訴我更好的方法,一起學(xué)習(xí)交流吧。
下面教程開(kāi)始
先在百度找到xenu可以模擬爬蟲爬取所有連接,我下載了個(gè)漢化版。
我們先用這個(gè)工具查詢所有被收錄的頁(yè)面。
打開(kāi)軟件,填入簡(jiǎn)版百度site網(wǎng)站地址,之所以用簡(jiǎn)版是可以減少鏈接查詢時(shí)間和內(nèi)容。(請(qǐng)把xxx.bizcn.com換成你的網(wǎng)址)
http://www.baidu.com/s?ie=utf-8&tn=baidulocal&wd=site%3Axxx.bizcn.com
等待檢測(cè)完成。
點(diǎn)擊導(dǎo)出為制表符分隔的文件。
導(dǎo)出的文件,我們可以看到格式是:網(wǎng)址+空格+狀態(tài)碼
那么寫一個(gè)正則,把需要的網(wǎng)址提取出來(lái)就行,比如www.baidu.com下的404頁(yè)面就是
/http:\/\/www.baidu.com(.*?)\s404/i
(以http://www.baidu.com開(kāi)頭,\s代表空格,404,/i代表匹配大小寫)
不會(huì)正則怎么辦?
為了方便大家,我把文件作了修改,大家只要把head改成標(biāo)致性開(kāi)頭,state改成狀態(tài)碼就行,file改成導(dǎo)出的文件路徑就行。
head怎么改,舉個(gè)例子,
你的網(wǎng)站是http://www.baidu.com/abc.html,那么你就寫http://www.baidu.com/
你的網(wǎng)站是http://abc.baidu.com/abc.html,那么你就寫http://abc.baidu.com/
把正則寫入php,在php環(huán)境下運(yùn)行g(shù)et.php。那么結(jié)果就出來(lái)了。
這時(shí)你只需要全選,復(fù)制到一個(gè)txt文件,上傳到網(wǎng)站空間,再到百度站長(zhǎng)平臺(tái)死鏈提交填入文件路徑就行就可以。
我們知道,思路是通過(guò)爬取找出所有被收錄的鏈接,然后按條件列出來(lái)而已。
這樣的話,只要把開(kāi)頭輸入的site網(wǎng)址改一下,也可以查詢其他搜索引擎的收錄。
把正則改一下,可以獲得如標(biāo)題等其他內(nèi)容。在此就不一一敘述。
原創(chuàng):http://blog.vg歡迎來(lái)小博逛逛
來(lái)源:盧松松博客(微信/QQ號(hào):13340454),歡迎分享本文,轉(zhuǎn)載請(qǐng)保留出處!
本文地址:http://m.quema.com.cn/artinfo/1353.html