2016 - 2024

感恩一路有你

审查元素和源代码的区别 爬虫怎么爬取js动态生成的数据?

浏览量:1943 时间:2021-03-15 15:40:47 作者:admin

爬虫怎么爬取js动态生成的数据?

当我使用jsup编写爬虫程序时,我通常会遇到HTML不返回的内容。但是浏览器显示了一些东西。所有这些都是分析页的HTTP请求日志。分析页面JS代码来解决问题。

1. 某些页面元素被隐藏->替换选择器解决方案

2。一些数据保存在JS/JSON对象中->截取相应的字符串,分析并求解

3。通过API接口调用-> forge请求获取数据

有一个终极方法

4。使用无头浏览器,如phantomjs或casperjs

有几种方法,如phantomjs、WebKit、selenium等。如果您对爬行的性能没有任何要求,请尝试selenium或Watir。Web自动化测试脚本可以很好地使用它做很多事情。使用浏览器执行JS,然后从dom获取数据。另一方面,如果你知道JS是通过Ajax或API获取数据的,你可以直接获取数据源,得到JSON或XML,然后处理数据

Python 2.6 selenium-2.53.6 firebox 45.0 beautiful sound 3.2.1或Python 2.6 selenium-2.53.6 phantomjs 2.1.1

审查元素和源代码的区别 如何找到网页接口 python爬取js动态网页

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。