解讀分詞與索引庫_SEO優(yōu)化教程

教程Tag：暫無Tag,歡迎添加,賺取U幣!

推薦：揭秘新手站長最忌諱的幾點(diǎn)網(wǎng)站操作
做站快有半年了，今天分享給大家。我不說廢話了！第一點(diǎn)：不要過分做SEO 不要過多的SEO優(yōu)化，記住幾點(diǎn)就行了 1．頁面標(biāo)題不要頻繁修改這樣可能會導(dǎo)致降權(quán)，新站如果降權(quán)恢復(fù)會很慢的。 2．首頁可以做適當(dāng)?shù)膬?yōu)化操作比如內(nèi)容頁就不要做過多的SEO了。第

分詞是很多做SEO的人常聽到的概念，為了讓大家在這個方面不會有疑惑，現(xiàn)在要來講一下分詞以及索引庫。這也是更深入的了解搜索引擎的開始。搜索引擎每天都是在處理一個基本的需求：用戶搜索一個關(guān)鍵詞，搜索引擎馬上找到相關(guān)的網(wǎng)頁給用戶。這個過程要怎么實現(xiàn)呢？下面就分步來了解這個過程。

首先搜索引擎要盡可能多的把互聯(lián)網(wǎng)上的網(wǎng)頁搜集下來，這樣能提供大量的網(wǎng)頁給用戶查詢。這一部分由爬蟲來解決，順著互聯(lián)網(wǎng)上的鏈接一個個往下抓取。最后就有了一堆記錄著網(wǎng)頁各種信息的資料庫。目前的現(xiàn)狀，最后能使這個資料庫里有大概100多億個網(wǎng)頁。資料庫里記錄了這些網(wǎng)頁的URL，整個網(wǎng)頁的HTML代碼，網(wǎng)頁標(biāo)題等等信息。

然后，搜索引擎拿到用戶輸入的這個關(guān)鍵詞后，要從這個資料庫里把相關(guān)的網(wǎng)頁找出來給用戶。這里就碰到好幾個問題了：

1，要怎么快速的從上100億個網(wǎng)頁里找出匹配的網(wǎng)頁的呢？

要知道這是從上百億的網(wǎng)頁里找符合這個關(guān)鍵詞內(nèi)容的網(wǎng)頁，如果像用word里那種用ctrl + F 輪詢的查找方式的話，即使用超級計算機(jī)，也不知道要消耗多少時間。但是現(xiàn)在的搜索引擎，在幾分之一秒里就實現(xiàn)了。所以一定是做了一些處理才實現(xiàn)的。

解決辦法也倒簡單，就是建立一份索引庫。就像我們查《新華字典》一樣，我們不會翻遍《新華字典》的每一頁來查那個字在哪頁，而是先去索引表那里找這個字，拿到頁碼后，直接翻到那頁就可以了。搜索引擎也會為上百億的網(wǎng)頁建立一個索引庫，用戶查詢信息的時候，是先到搜索引庫里查一下要找的信息在哪些網(wǎng)頁，然后就引導(dǎo)你去那些網(wǎng)頁的。

如下圖：

索引庫

索引庫

2，索引庫里用什么樣的分類方式？

我們知道，《新華字典》的索引表是用字母列表或者偏旁部首的分類方式的。那么搜索引擎的索引庫里是怎么分類的？是不是也可以用字母列表的方式？搜索引擎如果以字母列表的方式排列索引庫，那么平均每個字母下要查詢的網(wǎng)頁數(shù)量是 100億÷26＝3.85億，也還是一個很大的數(shù)字。而且搜索引擎上，今天是100億個網(wǎng)頁，過不了多久就是300億個網(wǎng)頁了。最后，終于找到一個解決辦法：索引庫里用詞語來分類。

因為盡管互聯(lián)網(wǎng)上的網(wǎng)頁是不斷激增的，但是每一種語言里，詞語的數(shù)量都是相對固定的。比如英語就是一百多萬個單詞，100億 ÷ 1百萬 = 1 萬；漢語是8萬多個詞語，100億÷8萬=12萬5千。都是計算機(jī)很容易處理得過來的。用詞語來分類還有一個好處，就是可以匹配用戶查詢的那個詞語。本來用戶就是要查這個詞語的，那我就按這個詞語去分類就是。所以，搜索引擎的索引庫，最后就是這個樣子的：

模擬的索引庫

模擬的索引庫

理論上，當(dāng)用戶輸入關(guān)鍵詞“mp3 player”搜索時，搜索引擎就從 “mp3”那行和 “player”那行里拿出同時都有的、交集的url來即可。上圖也是現(xiàn)在英文版的google.com上的真實排名情況，可以看到 www.winamp.com 這個網(wǎng)站在搜索“mp3”的時候排第4位，在搜索“player”的時候也排第4位。當(dāng)搜索“mp3 player”的時候，因為沒有其他網(wǎng)站比它更匹配這個詞語，所以它排在了第一位。

排第一

排在第一

當(dāng)搜索引擎把一個網(wǎng)站抓取下來后，接著要做的事情就是把網(wǎng)頁里的詞語分開放到索引庫里。分詞在這個時候就要應(yīng)用到了，所謂的分詞，其實很簡單，就是把詞語分開而已。英語的分詞好處理一點(diǎn)，因為英語的每個單詞之間是用空格分開的，基本上就只要處理一些虛詞、介詞，還有一些詞語的單復(fù)數(shù)，變形詞等等。但是中文的分詞就復(fù)雜很多了，句子中的每個字都連在一起，有時候即使是人來判斷，都還有產(chǎn)生歧義的時候。中文的分詞有很多方法，也很容易弄懂的，如正向切分法，逆向切分法等等，網(wǎng)上有很多相關(guān)的資料。

谷歌的中文分詞方法是從國外一家第三方公司買的。百度的分詞方法是自己創(chuàng)立的，可能在詞庫上面比谷歌有點(diǎn)優(yōu)勢。不過其他方面差了一些。當(dāng)爬蟲找到一個網(wǎng)頁的時候，在搜索引擎看來，這個網(wǎng)頁就是一大堆詞語的組合�；玖鞒倘缦拢�

搜索引擎的處理過程

搜索引擎的處理過程

看完這個流程圖，應(yīng)該能給大家在做內(nèi)部優(yōu)化的時候有所啟發(fā)的。我建議大家再去看一下《把Web標(biāo)準(zhǔn)化進(jìn)行得更徹底一點(diǎn)》這篇文章，還有《豐富網(wǎng)頁摘要”，讓你的網(wǎng)站與眾不同》以及《SEO案例：錨文本、關(guān)鍵字、nofollow、Web標(biāo)準(zhǔn)化（一）》和《SEO案例：錨文本、關(guān)鍵字、nofollow、Web標(biāo)準(zhǔn)化（二）》。那些文章和這篇文章一樣，都是在講同一個問題。

一定要站在搜索引擎的角度，把它的這些原理了解清楚了，才會讓你明白哪些因素才是你應(yīng)該關(guān)注的重點(diǎn)。有人說： SEO就是重在細(xì)節(jié)。這應(yīng)該是經(jīng)驗之談。但是不知道大家有沒有想過的是：是不是可能原本這些看似細(xì)節(jié)的東西，其實就是應(yīng)該注意的重要的東西呢？如果你不能控制好你的排名，有沒有想過可能你以前特別在意的一些SEO因素，其實有些并不是重點(diǎn)？；而只是你把影響排名的部分因素弄錯了？

上面的很多知識，其實在《搜索引擎營銷：網(wǎng)站流量大提速》里都有提及的。那本書要去精讀的原因之一就是它講了很多看似很普通的原理，但是都是有用的。比如在選關(guān)鍵詞的時候，也可以參考一下這個詞語的索引量。從上面的原理可以看出，這個索引量反應(yīng)了這個詞語在這種語言當(dāng)中人們使用的流行程度。所以國外有些計算關(guān)鍵詞KEI指數(shù)的公式里，也把這個關(guān)鍵詞的索引量加入了進(jìn)來。

分享：淺談被忽略的SEO利器robots.txt
竹影清風(fēng)做網(wǎng)站也有些年頭了，應(yīng)各位站長朋友的要求今天跟各位分享一點(diǎn)我的點(diǎn)滴經(jīng)驗。今天的話題重點(diǎn)是robots.txt。各位站長朋友可能比較少關(guān)注robots.txt，但善用robots.txt絕對對你的網(wǎng)站是有百益而無一害的。聲明：此文僅適合新手，老鳥請優(yōu)雅地飄過。

來源：模板無憂/所屬分類：SEO優(yōu)化教程/更新時間：2009-10-02

[收藏][報錯][返回列表]

相關(guān)SEO優(yōu)化教程：

SEO優(yōu)化教程Rss訂閱網(wǎng)站運(yùn)營教程搜索

SEO優(yōu)化教程推薦

猜你也喜歡看這些

相關(guān)鏈接：
復(fù)制本頁鏈接| 搜索解讀分詞與索引庫
教程說明：
SEO優(yōu)化教程-解讀分詞與索引庫。

日韩天天综合网_野战两个奶头被亲到高潮_亚洲日韩欧美精品综合_av女人天堂污污污_视频一区**字幕无弹窗_国产亚洲欧美小视频_国内性爱精品在线免费视频_国产一级电影在线播放_日韩欧美内地福利_亚洲一二三不卡片区

解讀分詞與索引庫_SEO優(yōu)化教程

SEO優(yōu)化教程Rss訂閱網(wǎng)站運(yùn)營教程搜索

SEO優(yōu)化教程推薦

猜你也喜歡看這些