爬虫能做什么 java如何抓取网页上的动态信息,获取源代码后如何分析JS?
浏览量:1357
时间:2021-03-13 02:21:46
作者:admin
java如何抓取网页上的动态信息,获取源代码后如何分析JS?
当我使用jsup编写爬虫程序时,我通常会遇到HTML不返回的内容。但是浏览器显示了一些东西。所有这些都是分析页的HTTP请求日志。分析页面JS代码来解决问题。1某些页面元素被隐藏->替换选择器解决方案2。一些数据保存在JS/JSON对象中->截取相应的字符串,分析并求解3。通过API接口调用-> forge请求获取数据。还有一个终极方法4。使用phantomjs或casperjs无头浏览器
Python
强大的网络功能,模拟登录和解析JavaScript,缺点是用Python解析网页非常方便。著名的Python爬虫有很多解析器,比如scratch、Java和Java。它对网页有很好的解析支持。缺点是网络中有很多Java开源爬虫。著名的解析器,如nutch,在中国有webmagicjava,优秀的解析器,如Htmlparser和jsoop,无论是Java还是python,都能满足一般的需求。如果需要模拟登陆和反采集,选择python更方便。如果需要处理复杂的网页,解析网页内容生成结构化数据或精细解析网页内容,可以选择Java。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。