2016 - 2025

感恩一路有你

pycharm源代码应该怎么理解 如何用python爬取网页中隐藏的div内容?

浏览量:3488 时间:2023-06-10 15:20:11 作者:采采

如何用python爬取网页中隐藏的div内容?

你说的隐藏div内容应该是动态加载的数据,并没有在网页的源代码中显示,只是要求在网页加载时显示。在正常情况下,这种数据保存在json文件中。只要抓取包并分析这个json文件的url地址,然后根据json文件结构进行分析,很快就可以得到动态加载的div数据。我以抓取人人贷上的零散数据为例,简单介绍一下python是如何抓取div动态加载的数据的。实验环境为win10 python3.6 pycharm5.0,主要步骤如下:

1.首先打开竞价数据,如下。抓取的信息主要包括五个字段:年利率、贷款名称、期限、金额、进度:

右键单击相应的元素进行检查,可以看到所有数据都嵌套在div标记中,如下所示:

打开网页源代码,按Ctrl F找到对应的数据,就会发现我们要找的数据不在网页源代码里,如下,也就是数据是动态加载的,所以我们可以 不能通过直接解析原始网页来找到嵌套在div中的数据:

2.然后,我们按F12调出开发者工具,点击 "网络 "-gt "xhr "接下来,F5刷新页面,您将看到动态加载的json文件。看看这个文件,左边是json文件的url地址,右边是我们需要抓取的div数据:

3.最后,对应上面的json文件,我们可以直接获取并解析json。这里主要使用两个模块,r

请问自学Python需要具备什么?

我很高兴回答你的问题。

自学python一定是兴趣爱好的引导或者工作要求的强制要求。我学皮托语。n是自考前报班,因为报班和我在网上找的资料差不多。

第一个硬性要求

你需要有一台电脑,有Windows系统的电脑就行。除非你有Linux系统的基础,否则先用Windows系统的电脑。

第二个软需求

1.下载并安装python

作为python初学者,下载安装是一个很大的挑战。但是唐 不要怕,如果你是这一类的,我简单介绍一下如何下载安装:看看我之前回答的问题,有一个专门介绍了如何下载安装。

2.环境变量的配置

环境变量仍然必须配置,因为python是开源的,很多第三方库会使用pip模块进行安装。这些都是在线和命令行中的操作。如何配置?

步骤1:打开计算机系统属性。

步骤2:高级系统设置

第三步:环境变量

步骤4:用下面的系统变量找到路径。

步骤5:将下载并安装的python路径放入。

教科书课程

推荐书籍:python3网络爬虫开发实用书籍。价格在70左右。

推荐视频:我这里之前有全套视频,从基础到人工智能。我只是还没有 我还没整理好。有需要可以联系我。

推荐学习网站:python官网,百度搜索python官网,有一些不错的python学习文档。

更多精彩,敬请期待!

python 数据 div 步骤 动态

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。