R语言boilerpipeR包说明文档(版本 1.3)

返回R语言所有包列表

boilerpipeR-package 从HTML文件中提取主要内容
ArticleExtractor 面向新闻文章的全文提取器。
ArticleSentencesExtractor 从新闻文章中提取句子的全文提取器。
boilerpipe 从HTML文件中提取主要内容
CanolaExtractor 在“krdwrd”油菜上训练的全文提取器(参见https://krdwrd.org/trac/attachment/wiki/Corpora/Canola/Canola.pdf'.
content Wordpress生成的网页(检索自Quantivity博客). 内容将另存为字符并准备提取。
DefaultExtractor 一个相当通用的全文提取器。
Extractor 调用锅炉管道提取器的泛型提取函数
KeepEverythingExtractor 将所有内容标记为内容。
LargestContentExtractor 一种全文提取器,用于提取页面中最大的文本部分。
NumWordsRulesExtractor 完全基于每个块(当前块、上一块和下一块)的字数的非常通用的全文提取器。