51data 发表于 2020-9-21 17:03:21

R语言除重

R语言中剔除重复数据的方法,类似与sql 的distinct。可以用duplicated()函数或者unique()函数。
区别:unique()函数用法对整表或者指定列除重,而duplicated可以对指标列除重且结果中保留其他列
例:
> col1<-c(1,2,3,4,5,6,1,2,3,4,5,6)
> col2<-c('a','b','c','a','b','c','a','b','c','a','b','c')
> col3<-c('A','B','A','B','A','B','A','B','A','B','A','B')
> f1<-data.frame(col1,col2,col3)
> f2<-f1[!duplicated(f1),]#对数据帧f1除重,等同于 unique(f1)
      

> f3<-f1[!duplicated(f1[,3]),] #按数据帧f1的第3列除重,其余列展示首次出现的值,等同于
      

> f4<-f1[!duplicated(f1[,3],fromLast = TRUE),] #按数据帧f1的第3列除重,其余列展示最后1次出现的值
      

> f5<-f1[!duplicated(f1[,c(2:3)]),] #按数据帧f1的第2、3列除重,其余列展示首次出现的值
      

duplicated函数为识别重复数据,详细说明见http://www.idata8.com/portal.php?mod=view&aid=52


页: [1]
查看完整版本: R语言除重