不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集_網(wǎng)站推廣教程

教程Tag：暫無Tag,歡迎添加,賺取U幣!

推薦：婚紗攝影行業(yè)網(wǎng)絡(luò)營銷推廣方案
婚紗攝影行業(yè)做網(wǎng)絡(luò)營銷相對來說就比較常見了，現(xiàn)在也有許多商家都在投入這一塊。那婚紗攝影行業(yè)網(wǎng)絡(luò)營銷應(yīng)該怎么做才會(huì)有效果呢?婚紗攝影行業(yè)網(wǎng)絡(luò)推廣方法又有哪些呢?怎么依托于網(wǎng)絡(luò)和新媒體渠道打開婚紗攝影市場?

幾乎每個(gè)人都有需要從網(wǎng)上批量獲取信息的需求，比如需要批量采集網(wǎng)站上的郵箱、批量采集1688、58同城上的商家信息、聯(lián)系方式，如果讓你去學(xué)編程語言?我看很多人連軟件都不會(huì)裝，更何況一門完整的編程語言，還要學(xué)會(huì)更正網(wǎng)頁知識(shí);學(xué)習(xí)火車頭軟件?一是貴，二是操作非常麻煩。

今天就推薦一款Google研發(fā)的數(shù)據(jù)采集插件，這款插件可以自帶cookies，自帶反爬蟲能力，非常容易上手，按照流程下來，基本上10分鐘就能學(xué)會(huì)了。我平時(shí)也經(jīng)常用它采集微博、知乎、豆瓣、58同城、大眾點(diǎn)評、汽車之家等等網(wǎng)站的內(nèi)容，非常方便。

Web scraper是google強(qiáng)大插件庫中非常強(qiáng)大的一款數(shù)據(jù)采集插件，有強(qiáng)大的反爬蟲能力，只需要在插件上簡單地設(shè)置好，可以快速抓取知乎、簡書、豆瓣、大眾、58等大型、中型、小型的90%以上的網(wǎng)站，包括文字、圖片、表格等內(nèi)容，最后快速導(dǎo)出csv格式文件。Google官方對web scraper給出的說明是：

使用我們的擴(kuò)展，您可以創(chuàng)建一個(gè)計(jì)劃(sitemap)，一個(gè)web站點(diǎn)應(yīng)該如何遍歷，以及應(yīng)該提取什么。使用這些sitemaps,Web刮刀將相應(yīng)地導(dǎo)航站點(diǎn)并提取所有數(shù)據(jù)。稍后可以將剪貼數(shù)據(jù)導(dǎo)出為CSV。

本系列是關(guān)于web scraper的系類介紹，將會(huì)完整介紹流程介紹，用知乎、簡書等網(wǎng)站為例介紹如何采集文字、表格、多元素抓取、不規(guī)律分頁抓取、二級頁抓取、動(dòng)態(tài)網(wǎng)站抓取，以及一些反爬蟲技術(shù)等全部內(nèi)容。

Ok，今天就介紹web scraper的安裝以及完整的抓取流程。

一、web scraper的安裝

Web scraper是google瀏覽器的拓展插件，只需要在google瀏覽器上安裝就可以了，介紹2種安裝方法：

1、打開google瀏覽器更多工具下的拓展程序——進(jìn)入到chrome 網(wǎng)上應(yīng)用點(diǎn)——搜索web scraper——然后點(diǎn)擊安裝就可以了，如下圖所示。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第1張

但是以上的安裝方法需要翻墻到國外的網(wǎng)站上，所以需要用到vpn，如果有vpn的就可以用這種方法，如果沒有就可以用下面的第二種方法：

2、通過鏈接：http://pan.baidu.com/s/1skXkVN3 密碼：m672，下載web scraper安裝程序。然后直接將安裝程序拖入到chrome中的拓展程序就可以完成安裝了。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第2張

完整完后就馬上可以使用了。

二、以知乎為例介紹web scraper完整抓取流程

1、打開目標(biāo)網(wǎng)站，這里以采集知乎第一大v張佳瑋的關(guān)注對象為例，需要爬取的是關(guān)注對象的知乎名字、回答數(shù)量、發(fā)表文章數(shù)量、關(guān)注著數(shù)量。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第3張

2、在網(wǎng)頁上右擊鼠標(biāo)，選擇檢查選項(xiàng)，或者用快捷鍵 Ctrl + Shift + I / F12 都打開 Web Scraper。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第4張

3、打開后點(diǎn)擊create sitemap選擇create sitemap創(chuàng)建一個(gè)站點(diǎn)地圖。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第5張

點(diǎn)擊create sitemap后就得到如圖頁面，需要填寫sitemap name，就是站點(diǎn)名字，這點(diǎn)可以隨便寫，自己看得懂就好;還需要填寫start url，就是要抓取頁面的鏈接。填寫完就點(diǎn)擊create sitemap，就完成創(chuàng)建站點(diǎn)地圖了。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第6張

具體如下圖：

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第7張

4、設(shè)置一級選擇器：選定采集范圍

接下來就是重中之重了。這里先介紹一下web scraper的抓取邏輯：需要設(shè)置一個(gè)一級選擇器(selector)，設(shè)定需要抓取的范圍;在一級選擇器下建立一個(gè)二級選擇器(selector)，設(shè)置需要抓取的元素和內(nèi)容。

以抓取張佳瑋關(guān)注對象為例，我們的范圍就是張佳瑋關(guān)注的對象，那就需要為這個(gè)范圍創(chuàng)建一個(gè)選擇器;而張佳瑋關(guān)注的對象的粉絲數(shù)、文章數(shù)量等內(nèi)容就是二級選擇器的內(nèi)容。具體步驟如下：

(1) Add new selector 創(chuàng)建一級選擇器Selector：

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第8張

點(diǎn)擊后就可以得到下圖頁面，所需要抓取的內(nèi)容就在這個(gè)頁面設(shè)置。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第9張

id：就是對這個(gè)選擇器命名，同理，自己看得懂就好，這里就叫jiawei-scrap。

Type：就是要抓取的內(nèi)容的類型，比如元素element/文本text/鏈接link/圖片image/動(dòng)態(tài)加載內(nèi)Element Scroll Down等，這里是多個(gè)元素就選擇element。

Selector：指的就是選擇所要抓取的內(nèi)容，點(diǎn)擊select就可以在頁面上選擇內(nèi)容，這個(gè)部分在下面具體介紹。

勾選Multiple：勾選 Multiple 前面的小框，因?yàn)橐x的是多個(gè)元素而不是單個(gè)元素，當(dāng)勾選的時(shí)候，爬蟲插件會(huì)識(shí)別頁面下具有相同屬性的內(nèi)容;

(2)這一步就需要設(shè)置選擇的內(nèi)容了，點(diǎn)擊select選項(xiàng)下的select 得到下圖：

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第10張

之后將鼠標(biāo)移動(dòng)到需要選擇的內(nèi)容上，這時(shí)候需要的內(nèi)容就會(huì)變成綠色就表示選定了，這里需要提示一下，如果是所需要的內(nèi)容是多元素的，就需要將元素都選擇，例如下圖所示，綠色就表示選擇的內(nèi)容在綠色范圍內(nèi)。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第11張

選擇內(nèi)容范圍后，點(diǎn)擊鼠標(biāo)，選定的內(nèi)容范圍就會(huì)變成如下圖的紅色：

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第12張

當(dāng)一個(gè)內(nèi)容變紅后，我們就可以選擇接下來的第二個(gè)內(nèi)容，點(diǎn)擊后，web scraper就會(huì)自動(dòng)識(shí)別你所要的內(nèi)容，具有相同元素的內(nèi)容就都會(huì)變成紅色的。如下圖所示：

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第13張

檢查這個(gè)頁面我們需要的內(nèi)容全部變成紅色之后，就可以點(diǎn)擊 Done selecting選項(xiàng)了，就可以得到如下圖所示：

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第14張

點(diǎn)擊save selector，保存設(shè)置。到這里后，一級選擇器就創(chuàng)建完成了。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第15張

5、設(shè)置二級選擇器：選擇需要采集的元素內(nèi)容。

(1)點(diǎn)擊下圖中紅框內(nèi)容，就進(jìn)入一級選擇器jiawei-scrap下：

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第16張

(2)點(diǎn)擊add new selector創(chuàng)建二級選擇器，來選擇具體內(nèi)容。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第17張

得到下圖，這跟一級選擇器的內(nèi)容是相同的，但是設(shè)置是有區(qū)別的。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第18張

id：代表抓取的是哪個(gè)字段，可以取該字段的英文，比如要選「作者」，就寫「writer」;

Type：這里選Text選項(xiàng)，因?yàn)橐ト〉氖俏谋緝?nèi)容;

Multiple：不要勾選 Multiple 前面的小框，因?yàn)樵谶@里要抓取的是單個(gè)元素;

保留設(shè)置：其余未提及部分保留默認(rèn)設(shè)置。

(3)點(diǎn)擊select選項(xiàng)后，將鼠標(biāo)移到具體的元素上，元素就會(huì)變成黃色，如下圖所示：

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第19張

在具體元素上點(diǎn)擊后，元素就會(huì)變成紅色的，就代表選定該內(nèi)容了。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第20張

(4)點(diǎn)擊Done selecting后完成選擇，再點(diǎn)擊save selector后就可以完成關(guān)注對象知乎名字的選取了。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第21張

重復(fù)以上操作，直到選完你想爬的字段。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第22張

(5)點(diǎn)擊紅框部分可以看到采集的內(nèi)容。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第23張

Data preview可以看到采集內(nèi)容，edit可以對設(shè)置的內(nèi)容做修改。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第24張

6、爬取數(shù)據(jù)

(1)只需要設(shè)置完所有的 Selector，就可以開始爬數(shù)據(jù)了，點(diǎn)擊 Scrape map，

選澤scrape;：

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第25張

(2)點(diǎn)擊后就會(huì)跳到時(shí)間設(shè)置頁面，如下圖，由于采集的數(shù)量不大，保存默認(rèn)就可以，點(diǎn)擊 start scraping，就會(huì)跳出一個(gè)窗口，就開始正式采集了。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第26張

(3)稍等一會(huì)就可以得到采集效果，如下圖：

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第27張

(4)選擇sitemap下的export data as csv選項(xiàng)就可以將采集的結(jié)果以表格的形式導(dǎo)出。

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第28張

表格效果：

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集經(jīng)驗(yàn)心得第29張

以上就是以知乎為例介紹基本的采集步驟和設(shè)置，看著雖然細(xì)節(jié)繁多，但是仔細(xì)算下來真沒多少步驟，基本上10分鐘就能夠完全掌握采集的流程;無論是什么類型的網(wǎng)站，設(shè)置的基本流程都是大致一樣的，有興趣可以認(rèn)真深入研究。

作者：白面書生微信：zds369466004

原文地址：http://lusongsong.com/reed/9885.html

來源：盧松松博客，歡迎分享，(QQ/微信：13340454)

分享：活動(dòng)運(yùn)營，讓用戶為你瘋狂打Call
早期的互聯(lián)網(wǎng)行業(yè)，都是用不斷砸錢的方式做活動(dòng)運(yùn)營，那是不是說參加我們活動(dòng)的用戶是唯利是圖?其實(shí)我們每個(gè)人都是用戶，大家想一下，我們選擇一款產(chǎn)品，真的是貪圖那點(diǎn)利益嗎。不然，活動(dòng)運(yùn)營其實(shí)是一種感覺。

作者：盧松松博客/所屬分類：網(wǎng)站推廣教程/更新時(shí)間：2018-02-25

[收藏][報(bào)錯(cuò)][返回列表]

相關(guān)網(wǎng)站推廣教程：

網(wǎng)站推廣教程Rss訂閱網(wǎng)站運(yùn)營教程搜索

網(wǎng)站推廣教程推薦

猜你也喜歡看這些

相關(guān)鏈接：
復(fù)制本頁鏈接| 搜索不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集
教程說明：
網(wǎng)站推廣教程-不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集。

日韩天天综合网_野战两个奶头被亲到高潮_亚洲日韩欧美精品综合_av女人天堂污污污_视频一区**字幕无弹窗_国产亚洲欧美小视频_国内性爱精品在线免费视频_国产一级电影在线播放_日韩欧美内地福利_亚洲一二三不卡片区

不用代碼10分鐘就能學(xué)會(huì)微博知乎豆瓣淘寶數(shù)據(jù)采集_網(wǎng)站推廣教程

網(wǎng)站推廣教程Rss訂閱網(wǎng)站運(yùn)營教程搜索

網(wǎng)站推廣教程推薦

猜你也喜歡看這些