网站源代码怎么看零基础小白如何在最短的时间快速入门python爬虫？

2021-03-31

2933

零基础小白如何在最短的时间快速入门python爬虫？我的看法是首先需要有Python的基础，在有基础的前提下，利用框架是最快，可以短时间实现爬虫。在这里我推荐scrapy，scrapy是基于pytho

零基础小白如何在最短的时间快速入门python爬虫？

我的看法是首先需要有Python的基础，在有基础的前提下，利用框架是最快，可以短时间实现爬虫。在这里我推荐scrapy，scrapy是基于python开发的开源网络爬虫框架，scrapy简单易用、灵活、易扩展、跨平台等特性，使得scrapy受广大用友的欢迎。

使用scrapy也很简单，只需要重点编写spider这一个文件就可以里，其实是我们网页数据处理的部分，以诗词网-爬取诗词为例。我们可以在spider里这样写：

上面的代码整体上就两部分内容，一部分是提取网页中的URL，另一部分是提取诗词详情页面我们需要爬取的内容，在这里我选择爬取的数据是诗词的作者、内容、网站打的标签等一些内容。

是不是很方便，如果你不用存储数据，到这里其实差不多够了，定义一下Item字段就可以实现数据的爬取，如果需要存储到数据库，这个时候需要在Pipeline里定义一个类，用于存储数据

如上图所示，定义的mongodb的类，这样我们就可以实现数据存储到Mongodb中。