一.出发点:
之前在知乎看到一位大牛(二胖)写的一篇文章:python爬取知乎最受欢迎的妹子(大概题目是这个,具体记不清了),但是这位二胖哥没有给出源码,而我也没用过python,正好顺便学一学,所以我决定自己动手搞一搞.
爬取已经完成,文末有 python的源码和妹子图片的百度云地址
二.准备:
爬虫还是要用python(之前用过一个国人大牛写的java爬……继续阅读 »
wangting
6年前 (2018-09-13) 9588浏览
1个赞
上文介绍了爬取知乎问题信息的整个过程,这里介绍下爬取问题下所有答案的内容和图片,大致过程相同,部分核心代码不同.
爬取一个问题的所有内容流程大致如下:
一个问题url
请求url,获取问题下的答案个数(我不需要,因为之前获取问题信息的时候保存了问题的回答个数)
通过答案的接口去获取答案(如果一次获取5个答案,总计100个答案,需要计算的出访问20次答案接口……继续阅读 »
wangting
6年前 (2018-09-13) 12765浏览
0个赞
前面了解了scrapy框架的大概各个组件的作用,
现在要爬取知乎数据,那么第一步就是要登录!
看下知乎的登录页面发现登录主要是两大接口
一: 登录页面地址,获取登录需要的验证码,如下图
打开知乎登录页面,需要输入用户名和密码, 还有一个验证码,
看chrome 调试工具发现验证码是这个地址返回的: https://www.zhihu.com/api/v3/o……继续阅读 »
wangting
6年前 (2018-09-10) 4996浏览 4评论
1个赞
python的scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架
python和scrapy的安装就不介绍了,资料很多
这里我个人总结一下,能更加快理解scrapy和快速上手一个简单的爬虫程序
首先开始一个scrapy项目
用命令: scrapy startproject 项目名
创建出来的文件如下图:红框是我的命令,蓝框是scrapy自……继续阅读 »
wangting
6年前 (2018-09-10) 8422浏览 29评论
0个赞