一.出发点:
之前在知乎看到一位大牛(二胖)写的一篇文章:python爬取知乎最受欢迎的妹子(大概题目是这个,具体记不清了),但是这位二胖哥没有给出源码,而我也没用过python,正好顺便学一学,所以我决定自己动手搞一搞.
爬取已经完成,文末有 python的源码和妹子图片的百度云地址
二.准备:
爬虫还是要用python(之前用过一个国人大牛写的java爬……继续阅读 »
wangting
6年前 (2018-09-13) 9608浏览
1个赞
上文介绍了爬取知乎问题信息的整个过程,这里介绍下爬取问题下所有答案的内容和图片,大致过程相同,部分核心代码不同.
爬取一个问题的所有内容流程大致如下:
一个问题url
请求url,获取问题下的答案个数(我不需要,因为之前获取问题信息的时候保存了问题的回答个数)
通过答案的接口去获取答案(如果一次获取5个答案,总计100个答案,需要计算的出访问20次答案接口……继续阅读 »
wangting
6年前 (2018-09-13) 12796浏览
0个赞
前文介绍了python的scrapy爬虫框架和登录知乎的方法.
这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中.
首先,看一下我要爬取哪些内容:
如下图所示,我要爬取一个问题的6个信息:
问题的id(question_id)
标题(title)
问题描述(intro)
回答个数(answer_num)
关注人数(attention_uv)
浏览……继续阅读 »
wangting
6年前 (2018-09-13) 2415浏览 1评论
0个赞