广告网站推荐 网站爬虫怎么爬取多个网站文章标题列表?
浏览量:1742
时间:2021-04-03 15:13:06
作者:admin
网站爬虫怎么爬取多个网站文章标题列表?
谢谢你的邀请。网络爬虫如何处理这个问题实际上是数据提取的步骤。首先,我们需要清楚地知道网页的页面结构,这是最基本的,因为网页是一个有层次的树结构。否则,我们很难提取出我们想要的数据,所以我们应该记住这样一个概念:网页是一个具有层次结构的树文档。
这里我以搜房网为例:http://esf.nb.fang.com/housing/此页是单元格的列表页。现在我们需要提取单元格名称和URL。
选择列表=响应.xpath(“//div[@class=”houselist“]/*/dl/DD/a[@class=”plottit“
]这样,我们需要提取整个页面的列表。我们还需要通过循环取出每个单元格的标题和页面URL。我们可以这样写:
对于选择器列表中的Li:title=李.xpath(“/@href”).extract()[0]网址=李.xpath( ". /文本()“”。Extract()[0
]在本例中,将提取标题和页面URL。关于如何使用XPath,可以查询相关课程。
欢迎留言讨论。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。