R语言rvest包read_html函数读取网页时卡住

[复制链接]
51data 发表于 2021-1-7 10:55:00 | 显示全部楼层 |阅读模式
在用R语言rvest包read_html函数读取网页时卡住,很久都没反应。
原因:网页内容太多
解决办法:先通过RSelenium包调用浏览器打开网页,再读取其中的部分内容。
详细操作方法见:http://idata8.com/portal.php?mod=view&aid=49

在这个解决方法之前,尝试过设置read_html()函数的参数n来扩大单次读取数据上限,但效果不理想。
也尝试过通过withTimeout函数设置允许的最长运行时间,如果花费的时间太长则中断,但数据量太大导致中断后回滚也很耗时。
最后发现先用浏览器渲染,再读取部分内容能够很好的解决这个问题。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

51data

管理员

  • 主题24
  • 帖子24
  • 积分294
发布新帖 立即签到

最新主题

主题排行

快速回复 返回顶部 返回列表