与你成长

相逢不忘

不用编程,10分钟就能爬取豆瓣1000本书的关键信息插图

这是摸鱼运营小报笔记的第 017 期原创

Hello,大家好,我是摸鱼田。

上次分享爬取知乎方法后,很多朋友留言,希望分享更多其他平台的爬取方式,正好回答过一个话题【你最想推荐的十本书是什么?】,看到有人从豆瓣,推荐了部分高分的书。

于是我也试了试,爬取了豆瓣职场内的1000本书,筛选出300人以上评价且评分超过8.5分的16本书,如下图。

而这一切,我只花了10分钟……

不用编程,10分钟就能爬取豆瓣1000本书的关键信息插图1

 

01.下载安装

考虑到依然有朋友不会安装,这里再介绍一次。

首先我们需要安装两个软件:

  • Chrome浏览器
  • webscraper插件

谷歌浏览器,大家根据自己的操作系统,windows或者mac,百度搜索,下载安装即可。

webscraper插件安装方法:

下载一个webscraper的爬虫插件,并把它安装到你的谷歌浏览器(其实360,IE,QQ、搜狗浏览器都可以,这次就不介绍)。

(在我的公众号【摸鱼运营小报】后台回复“爬虫”即可获得)

下载好以后

(1)Chrome 浏览器中输入:chrome://extensions/

(2)将下载好的文件拖动到此此页面

(3)根据提示点击:Add extensions;即完成安装。

以上,所需软件就已安装完毕。

 

02.打开软件

webscraper打开的入口有三种方法:

(1)windows, linux:Ctrl+Shift+I 或者 f12, 或者 Tools / Developer tools

(2)mac: Cmd+Opt+I, 或者 Tools / Developer tools

(3)或者:右键——> 审查元素(适用于各个系统)

不用编程,10分钟就能爬取豆瓣1000本书的关键信息插图2

如上图,大家可以看到,红框标注的地方,出现了一个web scraper,没有安装之前是看不到的。

 

03.创建sitemap

不用编程,10分钟就能爬取豆瓣1000本书的关键信息插图3

如上图,我们点击“create sitemap”,进入下面下一步

不用编程,10分钟就能爬取豆瓣1000本书的关键信息插图4

这个步骤需要输入 2 个信息:

  • Sitemap name:自定义名字,什么都可以,比如抓的是豆瓣职场1000本书,就取名  douban。
  • Start URL:当前网址 (直接从浏览器复制)。比如这里抓的一个豆瓣书单,

就直接复制网址。XXXXX。

  • 需要注意的是,豆瓣网址一页序号会变化15,所以最后[0-135:15],表示0-10页,每一次页面跳转,序号增加15.
  • 设置完成后点击  Create Sitemap 按钮即可

04.设置selector

不用编程,10分钟就能爬取豆瓣1000本书的关键信息插图5

点击sitemaps的“Add new selector”,进入下图

不用编程,10分钟就能爬取豆瓣1000本书的关键信息插图6

如上图,我们按照标号来挨个看。

1.输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))

2.选择 “Type”,此处选择Element

3.点击 “Select” 进行元素抓取

不用编程,10分钟就能爬取豆瓣1000本书的关键信息插图7

4.上一步,点击“Select”后,会出现标号4出悬浮的工具框

5.点击第一个帖子

6.点击第二个帖子,完成后,点击悬浮工具框蓝色的“Done slecting!

7.勾选 “Multiple

8.输入 Delay(延迟抓取时间,建议填 600-2000)

9.点击”Save Selector“保存

这步完成后,你会发现,sitemap下出现了一个叫content的选择器,如下图

不用编程,10分钟就能爬取豆瓣1000本书的关键信息插图8

点击上图的“content”,进入下图:

不用编程,10分钟就能爬取豆瓣1000本书的关键信息插图9

你会发现,这里多了一个content。

我们点击这里,“Add new selector“,进入下图:

不用编程,10分钟就能爬取豆瓣1000本书的关键信息插图10

如上图:我们按照标号依次看:

(1)输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))

(2)选择 “Type”,此处选择Text(文本)

(3)点击 “Select” 进行元素抓取

(4)上一步,点击“Select”后,会出现标号4出悬浮的工具框(注意,当我们点击上一步4的select后,第一个帖子会变黄,我们点击这个黄色区域,它会变为红色。)

(5)点击”Save Selector“,其他的都不用设置。

重复操作抓取网址和点赞数

不用编程,10分钟就能爬取豆瓣1000本书的关键信息插图11

抓取网址的时候选择 “Type”,此处选择link(链接)

不用编程,10分钟就能爬取豆瓣1000本书的关键信息插图12

重复以上操作,依次选择书名,链接,评分,评价人数,作者,出版社;

以上,我们抓取一个知乎号的所有设置都已完成