R语言rvest包read_html函数读取网页时卡住

51data · 发表于 2021-1-7 10:55:00

在用R语言rvest包read_html函数读取网页时卡住，很久都没反应。
原因：网页内容太多
解决办法：先通过RSelenium包调用浏览器打开网页，再读取其中的部分内容。
详细操作方法见：http://idata8.com/portal.php?mod=view&aid=49

在这个解决方法之前，尝试过设置read_html()函数的参数n来扩大单次读取数据上限，但效果不理想。
也尝试过通过withTimeout函数设置允许的最长运行时间，如果花费的时间太长则中断，但数据量太大导致中断后回滚也很耗时。
最后发现先用浏览器渲染，再读取部分内容能够很好的解决这个问题。

R语言rvest包read_html函数读取网页时卡住

51data

最新主题

主题排行