日韩天天综合网_野战两个奶头被亲到高潮_亚洲日韩欧美精品综合_av女人天堂污污污_视频一区**字幕无弹窗_国产亚洲欧美小视频_国内性爱精品在线免费视频_国产一级电影在线播放_日韩欧美内地福利_亚洲一二三不卡片区

解析搜索引擎系統(tǒng)之網(wǎng)頁(yè)凈化與元數(shù)據(jù)提取_SEO優(yōu)化教程

編輯Tag賺U幣
教程Tag:暫無(wú)Tag,歡迎添加,賺取U幣!

推薦:謹(jǐn)記做站先要搞好人脈
新房子已經(jīng)交付一段時(shí)間了,一直沒(méi)有時(shí)間去看,昨晚興起,抽出空來(lái),去感受一下未來(lái)的新窩。途經(jīng)該小區(qū)門(mén)口的小賣(mài)部時(shí),竟然看到人頭攢動(dòng),還不時(shí)爆發(fā)出不約而同的笑聲。我之所以用竟然看到這個(gè)詞來(lái)描述當(dāng)時(shí)的驚訝,是因?yàn)樾^(qū)房子新交付不久,理論上講基本

搜索引擎系統(tǒng)預(yù)處理:網(wǎng)頁(yè)凈化與元數(shù)據(jù)提取,關(guān)鍵詞是SEO優(yōu)化,搜索引擎優(yōu)化,
網(wǎng)頁(yè)凈化與消重是大規(guī)模搜索引擎系統(tǒng)預(yù)處理環(huán)節(jié)的重要組成部分。

網(wǎng)頁(yè)凈化(noise reduction):識(shí)別和清除網(wǎng)頁(yè)內(nèi)的噪聲內(nèi)容(如廣告、版權(quán)信息等),并提取網(wǎng)頁(yè) 主題以及與主題相關(guān)的內(nèi)容。

網(wǎng)頁(yè)消重 (replicas or near—replicas detection):去除所搜集網(wǎng)頁(yè)集合中主題內(nèi)容重復(fù)的網(wǎng)頁(yè)。

在主題搜索領(lǐng)域,大量的廣告、導(dǎo)航條等噪聲內(nèi)容會(huì)導(dǎo)致主題漂移(topicdrift)。這說(shuō)明傳統(tǒng)的主題搜索算法中以網(wǎng)頁(yè)為粒度構(gòu)造的web圖不夠準(zhǔn)確,必須深入到網(wǎng)頁(yè)內(nèi)部將處理單元的粒度縮小,才能提高內(nèi)容分析的準(zhǔn)確性。在(Chakrabarti et al. 2001)中提出了一套解決方法,首先講網(wǎng)頁(yè)表示為一顆DOM數(shù)結(jié)構(gòu)并找到與主題一致性較高的子樹(shù),然后對(duì)這些子樹(shù)做特別的處理,從而提高主題的提煉的效果。

在web信息檢索領(lǐng)域,檢索結(jié)果的相關(guān)性和檢索的速度是評(píng)價(jià)一個(gè)web檢索系統(tǒng)的兩個(gè)指標(biāo)。如果不去除原始網(wǎng)頁(yè)中的噪聲內(nèi)容,檢索系統(tǒng)必然對(duì)噪聲內(nèi)容也建立索引,從而導(dǎo)致僅僅因?yàn)椴樵?xún)?cè)~在某張網(wǎng)頁(yè)的噪聲內(nèi)容中出現(xiàn),而把該網(wǎng)頁(yè)作為結(jié)果返回,而網(wǎng)頁(yè)的主題內(nèi)容可能和這個(gè)查詢(xún)?cè)~完全無(wú)關(guān)�?梢钥闯�,噪聲內(nèi)容不僅使索引結(jié)構(gòu)的規(guī)模變大,而且還會(huì)導(dǎo)致了檢索系統(tǒng)準(zhǔn)確性的下降。針對(duì)這個(gè)問(wèn)題(Lin et al. 2002)中提出了一個(gè)去除網(wǎng)頁(yè)中噪聲內(nèi)容的方法,該方法首先依據(jù)標(biāo)簽構(gòu)造網(wǎng)頁(yè)的標(biāo)簽樹(shù),從而依據(jù)標(biāo)簽將網(wǎng)頁(yè)規(guī)劃為相互嵌套的內(nèi)容塊;然后對(duì)于使用同一個(gè)模塊做出的網(wǎng)頁(yè)集。找出在該網(wǎng)頁(yè)中多次出現(xiàn)的內(nèi)容,作為沉余內(nèi)容,而在該網(wǎng)頁(yè)集中出現(xiàn)次數(shù)較少的內(nèi)容快就是有效信息塊。實(shí)驗(yàn)證明該方法是有效的,但該方法必須局限于同一個(gè)模版的網(wǎng)頁(yè)集,而web上的網(wǎng)頁(yè)模版不計(jì)其數(shù),該方法顯然不夠通用。

在網(wǎng)頁(yè)分類(lèi)領(lǐng)域,由于噪聲內(nèi)容與主題無(wú)關(guān),訓(xùn)練集中的噪聲內(nèi)容會(huì)導(dǎo)致各個(gè)類(lèi)別的特征不夠明顯,而待分類(lèi)網(wǎng)頁(yè)中的噪聲內(nèi)容則會(huì)導(dǎo)致改網(wǎng)頁(yè)類(lèi)別不明顯,因而影響了網(wǎng)頁(yè)自動(dòng)分類(lèi)的效果。(Yang 1995,Li et al. 2002)中提出了通過(guò)去掉網(wǎng)頁(yè)中的噪聲內(nèi)容來(lái)提高網(wǎng)頁(yè)分類(lèi)質(zhì)量的方法。

在網(wǎng)頁(yè)信息提取領(lǐng)域,自動(dòng)識(shí)別漠視的方法必須要從整個(gè)網(wǎng)頁(yè)中提取模式,而不是只針對(duì)主題內(nèi)容提取。因此,在凈化后的網(wǎng)頁(yè)上作信息提取不僅可以排除噪聲信息對(duì)信息提取的干擾,提高信息提取的準(zhǔn)確性,而且可以使得網(wǎng)頁(yè)中的結(jié)構(gòu)簡(jiǎn)單化,提高信息提取的效率。

噪聲內(nèi)容對(duì)基于網(wǎng)頁(yè)的研究工作室普遍而嚴(yán)重的,雖然各個(gè)領(lǐng)域采用的方法各不相同,但處理的目的都是為了去除網(wǎng)頁(yè)的噪聲內(nèi)容,得到真正的主題內(nèi)容。

隨著web上的研究與應(yīng)用的發(fā)展,單純的網(wǎng)頁(yè)內(nèi)容已經(jīng)不能滿(mǎn)足需求,網(wǎng)頁(yè)元數(shù)據(jù)得到越來(lái)越多的廣泛使用。在web檢索領(lǐng)域,單純依賴(lài)關(guān)鍵詞匹配的檢索手段過(guò)于單一。內(nèi)容類(lèi)別、摘要等元數(shù)據(jù)信息的合理使用,不僅使用戶(hù)可以從不同的角度進(jìn)行查詢(xún),而且也使得查詢(xún)的準(zhǔn)確性得到提高。而主題搜索、個(gè)性化信息服務(wù)以及數(shù)字圖書(shū)館也都強(qiáng)烈的依賴(lài)資源的元數(shù)據(jù)信息。因此,準(zhǔn)確且高效的提取必要的元數(shù)據(jù)是web上各個(gè)研究領(lǐng)域面臨的重要問(wèn)題。

在元數(shù)據(jù)和主題內(nèi)容的提取方法上,可以從信息提取領(lǐng)域的研究成果(特別是從HTML網(wǎng)頁(yè)中提取語(yǔ)義信息)中得到很多啟發(fā)。針對(duì)從HTML網(wǎng)頁(yè)中提取語(yǔ)義信息,早期的方法是:針對(duì)某一類(lèi)具體網(wǎng)頁(yè),人工提取該類(lèi)的網(wǎng)頁(yè)中的內(nèi)容組織模式。然后,信息提取系統(tǒng)根據(jù)該模式從屬于該類(lèi)的網(wǎng)頁(yè)中提取相應(yīng)的內(nèi)容(Hammer et al. 1997,Ashish et al. 1997)。對(duì)元數(shù)據(jù)和主題內(nèi)容的提取可以采用同樣的辦法,但這些方法有一個(gè)共同的局限性,那就是需要人工提取內(nèi)容組織模式,這對(duì)于內(nèi)容組織繁多的web來(lái)說(shuō)顯然是不適用的。因此,在(Wemble et al. 1999)中提出了5條啟發(fā)式的規(guī)則,綜合利用這5條規(guī)則系統(tǒng)可以自動(dòng)地發(fā)現(xiàn)網(wǎng)頁(yè)中各個(gè)主題信息塊(chunk)的邊界。(Yang et al. 2001)提出了一種基于視覺(jué)相似性來(lái)自動(dòng)分析網(wǎng)頁(yè)語(yǔ)義結(jié)構(gòu)的方法,該方法首先比較HTML網(wǎng)頁(yè)內(nèi)容的視覺(jué)相似性,然后使用一個(gè)模式發(fā)現(xiàn)算法來(lái)確定這些視覺(jué)相似性的內(nèi)容最有可能的組織模式,最后按照該模式將內(nèi)容重新組合。

HTML_DocView模型:

包括:網(wǎng)頁(yè)識(shí)別、網(wǎng)頁(yè)類(lèi)型、內(nèi)容類(lèi)別、標(biāo)題、關(guān)鍵詞、摘要、正文、相關(guān)鏈接等要素。其中正文和相關(guān)鏈接屬于網(wǎng)頁(yè)的內(nèi)容數(shù)據(jù),而其他6項(xiàng)則屬于網(wǎng)頁(yè)的元數(shù)據(jù)。

網(wǎng)頁(yè)類(lèi)型:根據(jù)網(wǎng)頁(yè)內(nèi)容的表現(xiàn)形式進(jìn)行劃分,一般劃分為三類(lèi),既 主題網(wǎng)頁(yè)(topic)、Hub網(wǎng)頁(yè)(hub)、圖片網(wǎng)頁(yè)(pic)。

內(nèi)容類(lèi)別:是搜索引擎系統(tǒng)預(yù)處理:網(wǎng)頁(yè)凈化與元數(shù)據(jù)提取,關(guān)鍵詞是SEO優(yōu)化,搜索引擎優(yōu)化,從語(yǔ)義上對(duì)網(wǎng)頁(yè)的內(nèi)容進(jìn)行分類(lèi),它是計(jì)算機(jī)獲取網(wǎng)頁(yè)語(yǔ)義信息的一個(gè)直接手段。

分享:怎樣分析以及選擇網(wǎng)站的關(guān)鍵詞
關(guān)于一個(gè)網(wǎng)站的關(guān)鍵詞選擇問(wèn)題,一直以來(lái)對(duì)于一個(gè)營(yíng)銷(xiāo)型網(wǎng)站建設(shè)尤為重要,選擇一個(gè)好的關(guān)鍵字,不但可以提升流量,提高搜索量,更是一個(gè)企業(yè)以及一個(gè)門(mén)戶(hù)的關(guān)鍵點(diǎn),關(guān)鍵字、關(guān)鍵字,關(guān)鍵就關(guān)鍵在如何去分析一個(gè)網(wǎng)站的關(guān)鍵點(diǎn),只要找到網(wǎng)站的關(guān)鍵點(diǎn),也可以

來(lái)源:模板無(wú)憂(yōu)//所屬分類(lèi):SEO優(yōu)化教程/更新時(shí)間:2009-12-07
相關(guān)SEO優(yōu)化教程