广告网站推荐网站爬虫怎么爬取多个网站文章标题列表？

浏览量：1742 时间：2021-04-03 15:13:06 作者：admin

网站爬虫怎么爬取多个网站文章标题列表？

谢谢你的邀请。网络爬虫如何处理这个问题实际上是数据提取的步骤。首先，我们需要清楚地知道网页的页面结构，这是最基本的，因为网页是一个有层次的树结构。否则，我们很难提取出我们想要的数据，所以我们应该记住这样一个概念：网页是一个具有层次结构的树文档。

这里我以搜房网为例：http://esf.nb.fang.com/housing/此页是单元格的列表页。现在我们需要提取单元格名称和URL。

选择列表=响应.xpath（“//div[@class=”houselist“]/*/dl/DD/a[@class=”plottit“

]这样，我们需要提取整个页面的列表。我们还需要通过循环取出每个单元格的标题和页面URL。我们可以这样写：

对于选择器列表中的Li:title=李.xpath（“/@href”）.extract（）[0]网址=李.xpath( ". /文本（）“”。Extract（）[0

]在本例中，将提取标题和页面URL。关于如何使用XPath，可以查询相关课程。

欢迎留言讨论。

上一篇网络推广小型企业现在做网络推广好做吗

下一篇网站网页设计赏析优秀网站网页设计