如何尋找合適的kol


webscraper簡介

Web Scraper 是一款網頁資料採集工具,只要是我們日常在網頁上可以瀏覽到的內容,它都可以幫助我們爬取下來。

Web Scraper最大的特色是免費和免程式設計,不懂程式設計的人也很容易操作,儘管在爬取網頁資料方面也有很多工具,但綜合對比來看還是web scraper更加方便快捷一些。

Web Scraper主要有以下幾個特點:

  • 輕量級,只是瀏覽器外掛,無需在電腦中安裝
  • 免費,並且沒有按下載資料條數收費的要求
  • 免程式設計,好上手,一天學會無壓力
  • 唯一缺點是免費版不能設定定時任務

webscraper下載

登入官方網站進行外掛安裝,外掛有兩種瀏覽器可供選擇:火狐或者谷歌的Chrome。我選擇的是火狐瀏覽器,如果選用Chrome瀏覽器,則需要科學上網。
   (具體下載網址不方便貼上,可以私信獲取)
   
   知乎關鍵字搜尋資訊爬取程式碼

{"_id":"zhihuchaxun","startUrl":["
   https://www.zhihu.com/search?type=content&q=k30s至尊"],"selectors":[{"id":"question","type":"SelectorElementScroll","parentSelectors":["_root"],"selector":"div[] div.List-item","multiple":true,"delay":"3000"},{"id":"url","type":"SelectorLink","parentSelectors":["question"],"selector":"div [itemprop='zhihu:question'] a","multiple":true,"delay":0},{"id":"title","type":"SelectorText","parentSelectors":["url"],"selector":".QuestionHeader h1","multiple":false,"regex":"","delay":0},{"id":"view","type":"SelectorText","parentSelectors":["url"],"selector":"div.NumberBoard-item strong","multiple":false,"regex":"","delay":0},{"id":"follower","type":"SelectorText","parentSelectors":["url"],"selector":"button strong","multiple":false,"regex":"","delay":0},{"id":"answer","type":"SelectorText","parentSelectors":["url"],"selector":"div.Card:nth-of-type(1) a.QuestionMainAction","multiple":false,"regex":"","delay":0}]}

webscraper安裝

下載好外掛後,開啟火狐瀏覽器,點選右上角的幾個橫杆按鈕,然後點選附加元件

然後點選擴充套件

點選右邊的齒輪,選擇從檔案安裝附加元件

找到對應下載的外掛位置,然後點選外掛開啟

外掛顯示安裝完場,點選新增

然後我們就可以看到瀏覽器的右上角有一個類似蜘蛛網的圖示,說明webscraper已經安裝完成。

webscraper使用

同樣點選右上角的三個橫杆,選擇web開發者

然後點選第一個選項,切換工具箱

然後就可以看到瀏覽器下方出現了頁面,點選最右邊的圖示就可以開啟webscraper

然後點選import sitemap,匯入搜尋程式

把知乎的爬取程式碼複製到上面的框裡

然後自己寫個合適的名字(最好用英文,不支援中文),點選儲存

然後就可以看到新建好的搜尋程式了,直接點選搜尋程式

進去以後是這個介面

然後點選中間的選項,選擇edit metadata修改搜尋詞

比如修改成搜尋關鍵詞“好物”然後儲存

點選中間選擇的scrape,開始搜尋

按照預設設定,點選開始就可以了

接著我們會看到彈出一個新的頁面框,並且頁面框會自己動,不要關閉

等什麼時候頁面框自己關閉,然後爬取資訊就已經結束了,點選refersh可以檢視爬取到多的資訊

然後同樣點選中間選項的最後一個選項,到出資料

然後點選download就可以下載到本地了。

然後開啟表格就可以看到我們爬取到的資料了

通過對資料回答數和瀏覽數的篩選,我們就可以選出,回答數較少,瀏覽數較多的問答進行回答了。