日韩天天综合网_野战两个奶头被亲到高潮_亚洲日韩欧美精品综合_av女人天堂污污污_视频一区**字幕无弹窗_国产亚洲欧美小视频_国内性爱精品在线免费视频_国产一级电影在线播放_日韩欧美内地福利_亚洲一二三不卡片区

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集_網(wǎng)站推廣教程

編輯Tag賺U幣
教程Tag:暫無Tag,歡迎添加,賺取U幣!

推薦:婚紗攝影行業(yè)網(wǎng)絡(luò)營銷推廣方案
婚紗攝影行業(yè)做網(wǎng)絡(luò)營銷相對來說就比較常見了,現(xiàn)在也有許多商家都在投入這一塊。那婚紗攝影行業(yè)網(wǎng)絡(luò)營銷應(yīng)該怎么做才會(huì)有效果呢?婚紗攝影行業(yè)網(wǎng)絡(luò)推廣方法又有哪些呢?怎么依托于網(wǎng)絡(luò)和新媒體渠道打開婚紗攝影市場?

 幾乎每個(gè)人都有需要從網(wǎng)上批量獲取信息的需求,比如需要批量采集網(wǎng)站上的郵箱、批量采集1688、58同城上的商家信息、聯(lián)系方式,如果讓你去學(xué)編程語言?我看很多人連軟件都不會(huì)裝,更何況一門完整的編程語言,還要學(xué)會(huì)更正網(wǎng)頁知識(shí);學(xué)習(xí)火車頭軟件?一是貴,二是操作非常麻煩。

今天就推薦一款Google研發(fā)的數(shù)據(jù)采集插件,這款插件可以自帶cookies,自帶反爬蟲能力,非常容易上手,按照流程下來,基本上10分鐘就能學(xué)會(huì)了。我平時(shí)也經(jīng)常用它采集微博、知乎、豆瓣、58同城、大眾點(diǎn)評、汽車之家等等網(wǎng)站的內(nèi)容,非常方便。

Web scraper是google強(qiáng)大插件庫中非常強(qiáng)大的一款數(shù)據(jù)采集插件,有強(qiáng)大的反爬蟲能力,只需要在插件上簡單地設(shè)置好,可以快速抓取知乎、簡書、豆瓣、大眾、58等大型、中型、小型的90%以上的網(wǎng)站,包括文字、圖片、表格等內(nèi)容,最后快速導(dǎo)出csv格式文件。Google官方對web scraper給出的說明是:

使用我們的擴(kuò)展,您可以創(chuàng)建一個(gè)計(jì)劃(sitemap),一個(gè)web站點(diǎn)應(yīng)該如何遍歷,以及應(yīng)該提取什么。使用這些sitemaps,Web刮刀將相應(yīng)地導(dǎo)航站點(diǎn)并提取所有數(shù)據(jù)。稍后可以將剪貼數(shù)據(jù)導(dǎo)出為CSV。

本系列是關(guān)于web scraper的系類介紹,將會(huì)完整介紹流程介紹,用知乎、簡書等網(wǎng)站為例介紹如何采集文字、表格、多元素抓取、不規(guī)律分頁抓取、二級頁抓取、動(dòng)態(tài)網(wǎng)站抓取,以及一些反爬蟲技術(shù)等全部內(nèi)容。

Ok,今天就介紹web scraper的安裝以及完整的抓取流程。

一、web scraper的安裝

Web scraper是google瀏覽器的拓展插件,只需要在google瀏覽器上安裝就可以了,介紹2種安裝方法:

1、打開google瀏覽器更多工具下的拓展程序——進(jìn)入到chrome 網(wǎng)上應(yīng)用點(diǎn)——搜索web scraper——然后點(diǎn)擊安裝就可以了,如下圖所示。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第1張

但是以上的安裝方法需要翻墻到國外的網(wǎng)站上,所以需要用到vpn,如果有vpn的就可以用這種方法,如果沒有就可以用下面的第二種方法:

2、通過鏈接:http://pan.baidu.com/s/1skXkVN3 密碼:m672,下載web scraper安裝程序。然后直接將安裝程序拖入到chrome中的拓展程序就可以完成安裝了。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第2張

完整完后就馬上可以使用了。

二、以知乎為例介紹web scraper完整抓取流程

1、打開目標(biāo)網(wǎng)站,這里以采集知乎第一大v張佳瑋的關(guān)注對象為例,需要爬取的是關(guān)注對象的知乎名字、回答數(shù)量、發(fā)表文章數(shù)量、關(guān)注著數(shù)量。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第3張

2、在網(wǎng)頁上右擊鼠標(biāo),選擇檢查選項(xiàng),或者用快捷鍵 Ctrl + Shift + I / F12 都打開 Web Scraper。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第4張

3、打開后點(diǎn)擊create sitemap選擇create sitemap創(chuàng)建一個(gè)站點(diǎn)地圖。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第5張

點(diǎn)擊create sitemap后就得到如圖頁面,需要填寫sitemap name,就是站點(diǎn)名字,這點(diǎn)可以隨便寫,自己看得懂就好;還需要填寫start url,就是要抓取頁面的鏈接。填寫完就點(diǎn)擊create sitemap,就完成創(chuàng)建站點(diǎn)地圖了。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第6張

具體如下圖:

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第7張

4、設(shè)置一級選擇器:選定采集范圍

接下來就是重中之重了。這里先介紹一下web scraper的抓取邏輯:需要設(shè)置一個(gè)一級選擇器(selector),設(shè)定需要抓取的范圍;在一級選擇器下建立一個(gè)二級選擇器(selector),設(shè)置需要抓取的元素和內(nèi)容。

以抓取張佳瑋關(guān)注對象為例,我們的范圍就是張佳瑋關(guān)注的對象,那就需要為這個(gè)范圍創(chuàng)建一個(gè)選擇器;而張佳瑋關(guān)注的對象的粉絲數(shù)、文章數(shù)量等內(nèi)容就是二級選擇器的內(nèi)容。 具體步驟如下:

(1) Add new selector 創(chuàng)建一級選擇器Selector:

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第8張

點(diǎn)擊后就可以得到下圖頁面,所需要抓取的內(nèi)容就在這個(gè)頁面設(shè)置。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第9張

id:就是對這個(gè)選擇器命名,同理,自己看得懂就好,這里就叫jiawei-scrap。

Type:就是要抓取的內(nèi)容的類型,比如元素element/文本text/鏈接link/圖片image/動(dòng)態(tài)加載內(nèi)Element Scroll Down等,這里是多個(gè)元素就選擇element。

Selector:指的就是選擇所要抓取的內(nèi)容,點(diǎn)擊select就可以在頁面上選擇內(nèi)容,這個(gè)部分在下面具體介紹。

勾選Multiple:勾選 Multiple 前面的小框,因?yàn)橐x的是多個(gè)元素而不是單個(gè)元素,當(dāng)勾選的時(shí)候,爬蟲插件會(huì)識(shí)別頁面下具有相同屬性的內(nèi)容;

(2)這一步就需要設(shè)置選擇的內(nèi)容了,點(diǎn)擊select選項(xiàng)下的select 得到下圖:

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第10張

之后將鼠標(biāo)移動(dòng)到需要選擇的內(nèi)容上,這時(shí)候需要的內(nèi)容就會(huì)變成綠色就表示選定了,這里需要提示一下,如果是所需要的內(nèi)容是多元素的,就需要將元素都選擇,例如下圖所示,綠色就表示選擇的內(nèi)容在綠色范圍內(nèi)。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第11張

選擇內(nèi)容范圍后,點(diǎn)擊鼠標(biāo),選定的內(nèi)容范圍就會(huì)變成如下圖的紅色:

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第12張

當(dāng)一個(gè)內(nèi)容變紅后,我們就可以選擇接下來的第二個(gè)內(nèi)容,點(diǎn)擊后,web scraper就會(huì)自動(dòng)識(shí)別你所要的內(nèi)容,具有相同元素的內(nèi)容就都會(huì)變成紅色的。如下圖所示:

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第13張

檢查這個(gè)頁面我們需要的內(nèi)容全部變成紅色之后,就可以點(diǎn)擊 Done selecting選項(xiàng)了,就可以得到如下圖所示:

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第14張

點(diǎn)擊save selector,保存設(shè)置。到這里后,一級選擇器就創(chuàng)建完成了。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第15張

5、設(shè)置二級選擇器:選擇需要采集的元素內(nèi)容。

(1)點(diǎn)擊下圖中紅框內(nèi)容,就進(jìn)入一級選擇器jiawei-scrap下:

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第16張

(2)點(diǎn)擊add new selector創(chuàng)建二級選擇器,來選擇具體內(nèi)容。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第17張

得到下圖,這跟一級選擇器的內(nèi)容是相同的,但是設(shè)置是有區(qū)別的。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第18張

id:代表抓取的是哪個(gè)字段,可以取該字段的英文,比如要選「作者」,就寫「writer」;

Type:這里選Text選項(xiàng),因?yàn)橐ト〉氖俏谋緝?nèi)容;

Multiple:不要勾選 Multiple 前面的小框,因?yàn)樵谶@里要抓取的是單個(gè)元素;

保留設(shè)置:其余未提及部分保留默認(rèn)設(shè)置。

(3)點(diǎn)擊select選項(xiàng)后,將鼠標(biāo)移到具體的元素上,元素就會(huì)變成黃色,如下圖所示:

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第19張

在具體元素上點(diǎn)擊后,元素就會(huì)變成紅色的,就代表選定該內(nèi)容了。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第20張

(4)點(diǎn)擊Done selecting后完成選擇,再點(diǎn)擊save selector后就可以完成關(guān)注對象知乎名字的選取了。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第21張

重復(fù)以上操作,直到選完你想爬的字段。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第22張

(5)點(diǎn)擊紅框部分可以看到采集的內(nèi)容。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第23張

Data preview可以看到采集內(nèi)容,edit可以對設(shè)置的內(nèi)容做修改。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第24張

6、爬取數(shù)據(jù)

(1)只需要設(shè)置完所有的 Selector,就可以開始爬數(shù)據(jù)了,點(diǎn)擊 Scrape map,

選澤scrape;:

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第25張

(2)點(diǎn)擊后就會(huì)跳到時(shí)間設(shè)置頁面,如下圖,由于采集的數(shù)量不大,保存默認(rèn)就可以,點(diǎn)擊 start scraping,就會(huì)跳出一個(gè)窗口,就開始正式采集了。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第26張

(3)稍等一會(huì)就可以得到采集效果,如下圖:

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第27張

(4)選擇sitemap下的export data as csv選項(xiàng)就可以將采集的結(jié)果以表格的形式導(dǎo)出。

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第28張

表格效果:

 

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集 經(jīng)驗(yàn)心得 第29張

以上就是以知乎為例介紹基本的采集步驟和設(shè)置,看著雖然細(xì)節(jié)繁多,但是仔細(xì)算下來真沒多少步驟,基本上10分鐘就能夠完全掌握采集的流程;無論是什么類型的網(wǎng)站,設(shè)置的基本流程都是大致一樣的,有興趣可以認(rèn)真深入研究。

作者:白面書生 微信:zds369466004

原文地址:http://lusongsong.com/reed/9885.html

來源:盧松松博客,歡迎分享,(QQ/微信:13340454)

分享:活動(dòng)運(yùn)營,讓用戶為你瘋狂打Call
早期的互聯(lián)網(wǎng)行業(yè),都是用不斷砸錢的方式做活動(dòng)運(yùn)營,那是不是說參加我們活動(dòng)的用戶是唯利是圖?其實(shí)我們每個(gè)人都是用戶,大家想一下,我們選擇一款產(chǎn)品,真的是貪圖那點(diǎn)利益嗎。不然,活動(dòng)運(yùn)營其實(shí)是一種感覺。

作者:盧松松博客/所屬分類:網(wǎng)站推廣教程/更新時(shí)間:2018-02-25
相關(guān)網(wǎng)站推廣教程