日韩天天综合网_野战两个奶头被亲到高潮_亚洲日韩欧美精品综合_av女人天堂污污污_视频一区**字幕无弹窗_国产亚洲欧美小视频_国内性爱精品在线免费视频_国产一级电影在线播放_日韩欧美内地福利_亚洲一二三不卡片区

php提取網(wǎng)頁正文內(nèi)容的例子_PHP教程

編輯Tag賺U幣
教程Tag:暫無Tag,歡迎添加,賺取U幣!

推薦:PHP官方Windows擴展列表
發(fā)現(xiàn)很多學PHP的同學常常因為找不到PHP在windows下對應的擴展而抓破頭,因此分享一下PHP Windows所有可以找到的擴展索引資源: PHP 5.2/5.3的Windows擴展索引站點: 在這里你可以找到諸如php_oci8.dll, php_memcache.dll, php_mongo.dll, php_apc.dll等常用的Windows擴

   因為難點在于如何去識別并保留網(wǎng)頁中的文章部分,而且刪除其它無用的信息,并且要做到通用化,不能像火車頭那樣根據(jù)目標站來制定采集規(guī)則,因為搜索引擎結(jié)果中有各種的網(wǎng)頁。

  抓回一個頁面的數(shù)據(jù),如何匹配出正文部分,鄭曉在下班路上想了個思路是:

  1. 提取出body標簽部分–>剔除所有鏈接–>剔除所有script、注釋–>剔除所有空白標簽(包括標簽內(nèi)不含中文的)–>獲取結(jié)果。

  2. 直接匹配出非鏈接的、 符合在div、p、h標簽中的中文部分???

  還是會有不少其它多余信息啊,比如底部信息等。。 如何搞?不知道大家有木有什么思路或建議?

  這個類是從網(wǎng)上找到的一個php實現(xiàn)的提取網(wǎng)頁正文部分的算法,鄭曉在本地也測試了下,準確率非常高。

  使用起來也非常簡單,實例化時傳入網(wǎng)頁的html源碼和相應的編碼,然后直接調(diào)用其getContent方法即可返回提取到的正文部分,提取出的文章中可能還會含有少部分鏈接,可以自己后期再修改

分享:修改php.ini中的max_input_vars參數(shù)限制提交的表單數(shù)量
折騰了半天,發(fā)現(xiàn)了這個奧秘,原來php小版本升級引起的不兼容, php.ini 文件里的 max_input_vars 默認值為 1000, 正常情況下夠用,偶爾遇到我這種提交2000多個表單的情況還是比較少見的,不過,如果發(fā)現(xiàn)提交表單個數(shù)不全的情況,可以試試修改這個配置。 修改后重啟ph

來源:模板無憂//所屬分類:PHP教程/更新時間:2014-12-01
相關(guān)PHP教程