爬虫爬网页为什么数据出不来基于python的scrapy爬虫，关于增量爬取是怎么处理的？

浏览量：2141 时间：2021-03-11 07:16:02 作者：admin

基于python的scrapy爬虫，关于增量爬取是怎么处理的？

对于只读取少数网站更新内容的爬虫，不需要在Python代码中实现增量功能，直接在项目中添加URL字段。

项目[“Url”]=响应.url

然后，在数据端，将URL列设置为unique。

之后，您可以在Python代码中捕获数据库提交返回的异常，忽略它或将其传输到日志。

我使用Sqlalchemy。我就是这么写的sqlalchemy.exc公司import IntegrityError

类XxxPipeline（object）：

定义进程项目（self，Item，spider）：]会话.add（）

#….

试试看：会话.提交（）

打印“爬网%s完成！“%item[”URL“

]除了完整性错误：

print”skip%s.”%item[”URL“

]return item

尽管每次都会重复爬网某些数据，但最终结果库中不会有相同的URL。

对于小型爬虫，重复爬虫的成本可以忽略不计。

上一篇 db2存储过程游标while遍历 db2存储过程打印输出

下一篇 JAVA文件aio接口 java