与你成长

相逢不忘

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图

这是摸鱼运营小报笔记的第 014 期原创

Hello,大家好,我是摸鱼田。

最近在玩知乎平台,为了寻找答题规律,于是我就去看看大V们是如何回答问题的,想去学习一些规律,跟着大V们的思路玩。

可是大V的回答和文章那么多,一个个去点击记录又太麻烦,于是我想到用web scraper的方法,结果快速解决了问题。

这里就分享给大家……

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图1

 

01.下载安装

我们需要安装两个软件:

  • Chrome浏览器
  • webscraper插件

谷歌浏览器,大家根据自己的操作系统,windows或者mac,百度搜索,下载安装即可。

webscraper插件安装方法:

下载一个webscraper的爬虫插件,并把它安装到你的谷歌浏览器(其实360,IE,QQ、搜狗浏览器都可以,这次就不介绍)。

(在我的公众号【摸鱼运营小报】后台回复“爬虫”即可获得)

下载好以后

(1)Chrome 浏览器中输入:chrome://extensions/

(2)将下载好的文件拖动到此此页面

(3)根据提示点击:Add extensions;即完成安装。

以上,所需软件就已安装完毕。

 

02.打开软件

webscraper打开的入口有三种方法:

(1)windows, linux:Ctrl+Shift+I 或者 f12, 或者 Tools / Developer tools

(2)mac: Cmd+Opt+I, 或者 Tools / Developer tools

(3)或者:右键——> 审查元素(适用于各个系统)

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图2

如上图,大家可以看到,红框标注的地方,出现了一个web scraper,没有安装之前是看不到的。

 

03.创建sitemap

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图3

如上图,我们点击“create sitemap”,进入下面下一步

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图4

这个步骤需要输入 2 个信息:

  • Sitemap name:自定义名字,什么都可以,比如抓的是张佳玮的文章,就取名  zhangjiawei。
  • Start URL:当前网址 (直接从浏览器复制)。比如这里抓的一个知乎号,

就直接复制网址。XXXXX。

设置完成后点击  Create Sitemap 按钮即可

 

04.设置selector

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图5

点击“Add new selector”,进入下图

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图6

如上图,我们按照标号来挨个看。

  1. 输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))
  2. 选择 “Type”,此处选择Element
  3. 点击 “Select” 进行元素抓取

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图7

  1. 上一步,点击“Select”后,会出现标号4出悬浮的工具框
  2. 点击第一个帖子
  3. 点击第二个帖子,完成后,点击悬浮工具框蓝色的“Done slecting!
  4. 勾选 “Multiple
  5. 输入 Delay(延迟抓取时间,建议填 600-2000)
  6. 点击”Save Selector“保存

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图8

这步完成后,你会发现,sitemap下出现了一个叫content的选择器,如下图

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图9

点击上图的“content”,进入下图:

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图10

你会发现,这里多了一个content。

我们点击这里,“Add new selector“,进入下图:

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图11

如上图:我们按照标号依次看:

(1)输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))

(2)选择 “Type”,此处选择Text(文本)

(3)点击 “Select” 进行元素抓取

(4)上一步,点击“Select”后,会出现标号4出悬浮的工具框(注意,当我们点击上一步4的select后,第一个帖子会变黄,我们点击这个黄色区域,它会变为红色。)

(5)点击”Save Selector“,其他的都不用设置。

重复操作抓取网址和点赞数

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图12

抓取网址的时候选择 “Type”,此处选择link(文本)

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图13

以上,我们抓取一个知乎号的所有设置都已完成

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图14

05.开始抓取

这步,我们开始正式抓取:

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图15

如上图,点击中间这列,点击下拉框中出现的“Scrape”,进入下图:

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图16

这几个都默认就行,直接点击“Start scraping”。

点击后,浏览器会弹出一个新窗口,进行抓取工作,不要关闭,等待他抓取完毕。

你会发现,弹出的窗口,会自动下拉鼠标,模拟人的手,自动化的将这页全部的帖子全部抓取下来。

完毕后,会出现抓取的数据,如下图:

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图17

06.文件导出

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图18

如上图,点击中间这列,点击下拉框中的“Export data as CSV”,

再点击“Download now”,即可将数据下载到本地,会以表格的形式存储。

文件可以用excel打开,mac下用numbers打开。

不用编程,如何5分钟爬取一个知乎账号所有回答?  收录于话题插图19

至此,知乎号我们已经全部抓取完毕了。

怎么样,是不是很厉害。

其实这个软件的功能远不止此,后面会继续推出其他功能的爬取教程,记得关注哦,有问题可以在后台留言。

-END-

 

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注