網(wǎng)頁抓取優(yōu)先策略_SEO優(yōu)化教程
推薦:黑帽灰帽SEO的幾點(diǎn)解釋連著幾篇寫黑帽SEO,快寫成系列了。決定今天到此為止。有些留言讓我有點(diǎn)后悔寫這幾個(gè)帖子了。最后再做幾點(diǎn)說明。1)在關(guān)于買網(wǎng)站的帖子里,有朋友留言說,一
網(wǎng)頁抓取優(yōu)先策略也稱為“頁面選擇問題”(page Selection),通常是盡可能地首先抓取重要性的網(wǎng)頁,這樣保證在有限的資源內(nèi)盡可能地照顧到那些重要性高的網(wǎng)頁。那么哪些網(wǎng)頁才是重要性高的呢?如何量化重要性呢?
重要性度量由鏈接歡迎度、鏈接重要度和平均鏈接深度這個(gè)方面決定。
定義鏈接歡迎度為IB(P),它主要由反向鏈接(Backinks)的數(shù)目和質(zhì)量決定。首先考察數(shù)目,直觀地講,一個(gè)網(wǎng)頁有越多的鏈接指向它(反向鏈接數(shù)多),那么表示其他網(wǎng)頁對(duì)其的認(rèn)可。同時(shí)這個(gè)網(wǎng)頁被網(wǎng)民訪問的機(jī)會(huì)就大,推測(cè)出其重要性也就越高;其次考察質(zhì)量,假如被越多的重要性高的網(wǎng)指向,那么其重要性也就越高。假如不考慮質(zhì)量,就會(huì)出現(xiàn)局部最優(yōu),而不是全局最優(yōu)的問題。最典型的就是作弊網(wǎng)頁,人為地在一些網(wǎng)頁中設(shè)置了大量反策鏈接指向其自身的網(wǎng)頁,以提高該網(wǎng)頁的重要性。假如不考慮鏈接質(zhì)量,就會(huì)被這些作弊者所利用。
定義鏈接重要度為IL(P),它是一個(gè)關(guān)于URL字符串的函數(shù),僅僅考察字符串本身。鏈接重要度主要通過一些模式,比如認(rèn)為包含“.COM”或者“HOME”的URL重要度高,以及具有較少斜杠(Slash)的URL重要度高等。
定義平均鏈接深度為ID(P),此為筆者所創(chuàng)。ID(P)表示在一個(gè)種子站點(diǎn)集合中,每個(gè)種子站點(diǎn)假如存在一條鏈路(寬度優(yōu)先遍歷規(guī)則)到達(dá)該網(wǎng)頁,那么平均鏈接深度就是這個(gè)網(wǎng)頁的又一個(gè)重要性指標(biāo)。因?yàn)榫嚯x種子站點(diǎn)越近,說明被訪問的機(jī)會(huì)越多,離種子站點(diǎn)越遠(yuǎn),重要性越低。事實(shí)上,按照寬度優(yōu)先的遍歷規(guī)則即可滿足這種重要性高的網(wǎng)頁被優(yōu)先抓取的需要。
最后,定義網(wǎng)頁重要性的度量為I(P),它由以上兩個(gè)量化值線性決定,即:
I(P)=a*IB(P) β*IL(P)
平均鏈接深度同寬度優(yōu)先的遍歷規(guī)則保證,因此不作為重要性評(píng)價(jià)的指標(biāo)。在抓取能力有限的情況下,假如能夠把重要性高的網(wǎng)頁盡可能地抓完,是合理科學(xué)的,最終被用戶查詢到的網(wǎng)頁也往往是那些重要性高的網(wǎng)頁。
盡管這樣看來已經(jīng)足夠完美,事實(shí)上,還是忽視了一個(gè)重要的要素--時(shí)間。時(shí)間導(dǎo)致萬維網(wǎng)動(dòng)態(tài)變化的一面。如何抓取那些新增的網(wǎng)頁呢?如何重訪那些被修改了的網(wǎng)頁呢?如何發(fā)現(xiàn)那些被刪除了的網(wǎng)頁呢?為了保持和萬維網(wǎng)網(wǎng)頁的同步變化,就必須有網(wǎng)頁重訪策略。通過該策略可以識(shí)別增加、修改及刪除網(wǎng)頁這3種網(wǎng)頁變化的情況。
分享:做SEO千萬別犯的7個(gè)要點(diǎn)1、經(jīng)常換網(wǎng)站程序。有很多新手在接觸網(wǎng)站的時(shí)候,因?yàn)閷?duì)SEO沒有太深的了解,往往憑借個(gè)人喜好,經(jīng)常變更網(wǎng)站程序。殊不知網(wǎng)站建成之初,蜘蛛就形成了對(duì)該站的
- B2B網(wǎng)站SEO優(yōu)化實(shí)戰(zhàn)經(jīng)驗(yàn)分享
- 淺析如何提高SEO優(yōu)化團(tuán)隊(duì)效率
- 谷歌如何評(píng)價(jià)一篇博文是否是軟文
- 盧松松:Bing與Google搜索排名因素研究
- 盧松松:給谷歌的蜂鳥算法潑瓢冷水
- 提高移動(dòng)站在百度質(zhì)量度等級(jí)的詳細(xì)說明
- 谷歌推出網(wǎng)站人工干預(yù)通知
- 優(yōu)化技巧:如何設(shè)置自定義503錯(cuò)誤頁面?
- 解讀SEO元素周期表
- 網(wǎng)站SEO最高境界之從 “人性化” 出發(fā)
- 社會(huì)化媒體營(yíng)銷是如何對(duì)企業(yè)產(chǎn)生相應(yīng)影響
- 小站長(zhǎng)們?cè)撊绾蚊鎸?duì)新一輪的百度算法調(diào)整
- 相關(guān)鏈接:
- 教程說明:
SEO優(yōu)化教程-網(wǎng)頁抓取優(yōu)先策略
。