Skip to content

程序员灯塔

Menu
  • Download
  • sitemap
  • 文章归档
  • 标签归档
  • 示例页面
Menu

python scrapy爬虫框架概念介绍(个人理解总结为一张图)

Posted on 2018 年 9 月 10 日
python的scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架
python和scrapy的安装就不介绍了,资料很多
这里我个人总结一下,能更加快理解scrapy和快速上手一个简单的爬虫程序

首先开始一个scrapy项目

用命令: scrapy startproject 项目名
创建出来的文件如下图:红框是我的命令,蓝框是scrapy自动创建的文件

其中各个最常用文件的用处:

mytestproject
–items.py 定义spider.py到pipelines.py中间的数据格式
–pipelines.py 处理爬取到的数据
–settings.py 配置文件,定义有几个pipelines以及他们的优先级,
–spider 爬虫目录
—-spider.py 爬取哪些页面, 如何解析爬取的到的数据,整理数据返回给pipelines.py
我画了一张简单的图介绍一下各个文件之间的关系:
一个url地址对应的数据从开始爬取–>处理结果–>入库(或写文件等) 分别是在哪个文件里做的,如下图:
scrapy框架中的各个文件和数据流转大概就是这样,后面我会详细介绍下我爬取zhihu的各个文件的详细代码.
欢迎关注我的公众号,分享面试攻略和技术干货!

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

近期文章

  • 技术网站
  • 世界,您好!
  • Git学习记录(learngitbranching.js.org)
  • 阿里职场潜规则
  • 寻找两个正序数组的中位数

近期评论

  1. 一位 WordPress 评论者 发表在 世界,您好!

归档

  • 2024 年 9 月
  • 2024 年 3 月
  • 2022 年 12 月
  • 2021 年 8 月
  • 2021 年 6 月
  • 2021 年 3 月
  • 2021 年 2 月
  • 2020 年 11 月
  • 2020 年 5 月
  • 2020 年 3 月
  • 2019 年 11 月
  • 2019 年 10 月
  • 2019 年 9 月
  • 2019 年 7 月
  • 2019 年 6 月
  • 2019 年 5 月
  • 2019 年 3 月
  • 2018 年 9 月
  • 2018 年 8 月
  • 2018 年 7 月
  • 2018 年 4 月
  • 2018 年 2 月
  • 2018 年 1 月
  • 2017 年 12 月
  • 2017 年 11 月
  • 2017 年 10 月
  • 2017 年 8 月
  • 2017 年 7 月

分类目录

  • 未分类
©2025 程序员灯塔 | Design: Newspaperly WordPress Theme