审查元素和源代码的区别 爬虫怎么爬取js动态生成的数据?
爬虫怎么爬取js动态生成的数据?
当我使用jsup编写爬虫程序时,我通常会遇到HTML不返回的内容。但是浏览器显示了一些东西。所有这些都是分析页的HTTP请求日志。分析页面JS代码来解决问题。
1. 某些页面元素被隐藏->替换选择器解决方案
2。一些数据保存在JS/JSON对象中->截取相应的字符串,分析并求解
3。通过API接口调用-> forge请求获取数据
有一个终极方法
4。使用无头浏览器,如phantomjs或casperjs
有几种方法,如phantomjs、WebKit、selenium等。如果您对爬行的性能没有任何要求,请尝试selenium或Watir。Web自动化测试脚本可以很好地使用它做很多事情。使用浏览器执行JS,然后从dom获取数据。另一方面,如果你知道JS是通过Ajax或API获取数据的,你可以直接获取数据源,得到JSON或XML,然后处理数据
Python 2.6 selenium-2.53.6 firebox 45.0 beautiful sound 3.2.1或Python 2.6 selenium-2.53.6 phantomjs 2.1.1
审查元素和源代码的区别 如何找到网页接口 python爬取js动态网页
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。