解析織夢(mèng)v5.3的分頁(yè)采集_建站經(jīng)驗(yàn)教程
推薦:談《網(wǎng)絡(luò)江湖三十六計(jì)》之搜狐的攻心為上2003年12月,搜狐并購(gòu)17173.com。17173
最近想做個(gè)技術(shù)型的網(wǎng)站,不知道用什么cms來(lái)做,在網(wǎng)上搜索了一大堆,看到織夢(mèng)的采集功能還不錯(cuò),我也在想啊,做一個(gè)站如果所有的文章都需要站長(zhǎng)一個(gè)一個(gè)的加,那不是要累死啊,所以就選著了織夢(mèng)。
還好自己有點(diǎn)基礎(chǔ),弄了一天就基本弄懂織夢(mèng)的操作流程了,申請(qǐng)域名、空間,上傳程序。忙得是不亦樂(lè)乎,好了,開(kāi)始采集文章了。好高興,一下就有了2000多篇文章。高興的打開(kāi)來(lái)瞧瞧,哇,突然嚇了一跳,發(fā)現(xiàn)一個(gè)文章一看就只有一段沒(méi)有完整,打開(kāi)源原址一看,原來(lái)有分頁(yè),在網(wǎng)上找了N久,還是沒(méi)有結(jié)果,自己摸索摸索吧,搞了一天一夜幾乎沒(méi)有睡覺(jué),我差點(diǎn)都沒(méi)有信心了,想著就是采集的文章只有一半,別人怎么看啊,都不想做了,也累了,還是好好睡一覺(jué)吧。
也許是老天看我太辛苦了吧,剛想睡覺(jué),突然我一下睡意全無(wú),我太興奮了,我看到了,看到了分頁(yè)被我采集了。好了,說(shuō)了這么多,還是開(kāi)始進(jìn)入正題了。直接看圖。如果看不懂請(qǐng)打開(kāi)源網(wǎng)址,查看源文件,和我的教程比較。開(kāi)始選著左邊的采集,然后打開(kāi)采集節(jié)點(diǎn)管理,添加新節(jié)點(diǎn),選著普通文章。1、 文章列表頁(yè)采集節(jié)點(diǎn)名稱:自己根據(jù)你的網(wǎng)站目錄和采集內(nèi)容結(jié)合起來(lái)。網(wǎng)址:http://webdesign.chinaitlab.com/List_1399_(*).html 是有規(guī)則的網(wǎng)址列表。 如果有不規(guī)則追加就好了。http://webdesign.chinaitlab.com/List_1399.html如果只有一頁(yè)或幾頁(yè)沒(méi)有規(guī)則就直接寫(xiě)在下面手工指定網(wǎng)址就好了。

文章列表匹配規(guī)則。注意要多看幾頁(yè)找出相同的,列表頁(yè)大體相同,但有些有點(diǎn)小變化,所以要找出幾頁(yè)的共同html代碼。
區(qū)域開(kāi)始的html :
| 以下為引用的內(nèi)容: <TBODY> <TR> <TD width="74%" height="796" align=left vAlign=top><BR> <table cellSpacing=0 cellPadding=0 width=490 align=center border=0> <tr> 區(qū)域結(jié)束的html :</tr> <tr> <td class=zhi12 colSpan=2><BR> |
建議寫(xiě)上篩選,一般寫(xiě)必須包含,這樣準(zhǔn)確點(diǎn):chinaitlab.com/flashsl

保存進(jìn)入下一步設(shè)置。以看到下面的圖為準(zhǔn)。

3、 分頁(yè)設(shè)置預(yù)覽網(wǎng)址可以更改。選擇有分頁(yè)的頁(yè)面來(lái)預(yù)覽,當(dāng)然最好多預(yù)覽幾頁(yè),主要是和前面一樣代碼可能有小變化,選著相同的html代碼http://webdesign.chinaitlab.com/flashsl/775579.html分頁(yè)匹配規(guī)則這里只要做過(guò)一次就不難了。
看我的代碼 ,請(qǐng)和源網(wǎng)址,查看源文件對(duì)比。
| 以下為引用的內(nèi)容: <p align='center'><b><font color='red'>[內(nèi)容]</b></p><div align=right style="margin:3px 0;">[內(nèi)容]為我們需要的內(nèi)容,這個(gè)我想大家都知道了同理做好文章標(biāo)題:(標(biāo)題有兩個(gè)地方有,當(dāng)然選簡(jiǎn)單的個(gè))<B class=zhi25><FONT color=#003399><BR><BR></FONT></B><B class=zhi25><FONT color=#003399>[內(nèi)容]</FONT></B><br>文章作者:<IMG height=11 src="http://www.chinaitlab.com/cms/images/Author.gif" _fcksavedurl=""http://www.chinaitlab.com/cms/images/Author.gif"" width=11>[內(nèi)容]<IMG height=15 src="http://webdesign.chinaitlab.com/images/c3.gif" width=14> |

文章來(lái)源:<IMG height=12 src="http://webdesign.chinaitlab.com/images/c1.gif" _fcksavedurl=""http://webdesign.chinaitlab.com/images/c1.gif"" width=17>[內(nèi)容]<IMG height=12 src="http://webdesign.chinaitlab.com/images/c2.gif" width=12>
這里有一個(gè)<a >中國(guó)教程網(wǎng)</a>(但是在我測(cè)試的有些里面又沒(méi)有,就是直接就是如 中國(guó)教程網(wǎng) )所以有些就采集不出來(lái),我只有寫(xiě)遠(yuǎn)點(diǎn)所以需要一個(gè)過(guò)濾規(guī)則,就是去掉不要的。規(guī)則是在需要的時(shí)候才有用,沒(méi)有<a></a>的時(shí)候就沒(méi)有用。下面的代碼就是去掉<a> </a>標(biāo)簽保留中間內(nèi)容。
你可以直接點(diǎn)擊常用規(guī)則選著超鏈接看哈有什么區(qū)別。
| 以下為引用的內(nèi)容: {dede:trim replace=""}<a([^>]*)>{/dede:trim}{dede:trim replace=""}</a>{/dede:trim} 文章內(nèi)容:進(jìn)入網(wǎng)絡(luò)咨詢平臺(tái)</strong></a> <strong><span class="style1"> ◆</span></strong><br> <BR class=zhi14>[內(nèi)容]<span style="border:1px dashed #cccccc; margin:3px;"> |
同樣的需要過(guò)濾規(guī)則,你可以先不寫(xiě)規(guī)則看哈,有什么區(qū)別就知道規(guī)則有什么用了。規(guī)則一定要根據(jù)實(shí)際文章來(lái)寫(xiě)。
| 以下為引用的內(nèi)容: {dede:trim replace=""}<style([^>]*)>(.*)</style>{/dede:trim}{dede:trim replace=""}<div([^>]*)>{/dede:trim}{dede:trim replace=""}</div>{/dede:trim}{dede:trim replace=""}<SPAN([^>]*)>{/dede:trim}{dede:trim replace=""}</SPAN>{/dede:trim}{dede:trim replace=""}<a([^>]*)>{/dede:trim}{dede:trim replace=""}</a>{/dede:trim}{dede:trim replace=""}</p><p align='center'><b>(.*)</b></p>{/dede:trim} |
這一句我多說(shuō)哈,主要作用是去掉后面的分頁(yè)的文字。我開(kāi)始也考慮把分頁(yè)內(nèi)容排除在文章內(nèi)容外面,但是有些文章又沒(méi)有分頁(yè)代碼,所以在文章的結(jié)尾html不好寫(xiě),所以我寫(xiě)遠(yuǎn)點(diǎn)然后用規(guī)則去掉分頁(yè)文字 (同樣的如果不懂先不加這條,比較哈就知道了)
{dede:trim replace=""}<font([^>]*)>{/dede:trim}{dede:trim replace=""}</font>{/dede:trim}分頁(yè)采集成功沒(méi)有可以看有沒(méi)有一個(gè){副標(biāo)題#e#},還有看哈最后一頁(yè)采集到?jīng)]有就知道。


中間也有

分享:淺談?wù)_設(shè)計(jì)廣告位與高收入的聯(lián)系一個(gè)網(wǎng)站廣告位收入的多少,便不是廣告位越多,你網(wǎng)站的收入就越多,而是要合理的設(shè)計(jì)廣告位。下面就來(lái)談?wù)勅绾卧O(shè)計(jì)廣告位。 一、廣告位的大小控制 一個(gè)好網(wǎng)站廣告位的總和大小一定不會(huì)太大,那么多少為合適呢?這個(gè)得根據(jù)自己的網(wǎng)站來(lái)定,廣告位一定要控制
- 雙十二電商促銷(xiāo)思路淺析
- Matt Cutts:不要把注意力放在PR上
- 百度要革自己的命?移動(dòng)搜索或取消PC網(wǎng)頁(yè)收錄
- Google adsense帳戶被封到解封全過(guò)程
- 菜鳥(niǎo)如何通過(guò)競(jìng)價(jià)賺取第一桶金?
- 不接電話會(huì)讓你的備案號(hào)注銷(xiāo)
- 盧松松:搜搜已停止收錄網(wǎng)頁(yè)
- 你懂得:百度文庫(kù)也玩?zhèn)人+V認(rèn)證了
- 頭腦風(fēng)暴:為什么搜索引擎不在乎我們?
- 搜狗聯(lián)盟:360 X 300的廣告位變現(xiàn)能力強(qiáng)
- 盧松松:做這樣的資源站,長(zhǎng)不了
- 盧松松:一個(gè)小學(xué)教師建站的不惑與困惑
建站經(jīng)驗(yàn)教程Rss訂閱網(wǎng)站運(yùn)營(yíng)教程搜索
建站經(jīng)驗(yàn)教程推薦
猜你也喜歡看這些
- 網(wǎng)站建設(shè)優(yōu)化心得九個(gè)導(dǎo)向
- 找到了麥當(dāng)勞等于找到了廁所——談網(wǎng)站定位
- 含金量:網(wǎng)站流量針對(duì)性的轉(zhuǎn)化率比例
- 如何增強(qiáng)網(wǎng)站內(nèi)容可讀性留住用戶
- 幾步讓你的網(wǎng)站精美亮瞎眼:布局篇
- 醉品:QQ郵箱開(kāi)放平臺(tái)的網(wǎng)站推廣方法
- 要怎么辦你才能愛(ài)我 我的百度
- 怎樣在10天內(nèi)排在百度首頁(yè)獲得6000IP
- 淺談?wù)_設(shè)計(jì)廣告位與高收入的聯(lián)系
- 經(jīng)驗(yàn)之談:用戶如何對(duì)服務(wù)器供應(yīng)商進(jìn)行考核
- 相關(guān)鏈接:
- 教程說(shuō)明:
建站經(jīng)驗(yàn)教程-解析織夢(mèng)v5.3的分頁(yè)采集
。