Привет. Я хотел бы определить функцию, которая возвращает график для outlier (определенный ниже) на основе specified date range
и одновременно отображает исходную серию (и учетные записи в этом контексте для возможных отношений):
Отказ от выбросов:
anomaly <- function(x)
{ tt <- 1:length(x)
resid <- residuals(loess(x ~ tt))
resid.q <- quantile(resid,prob=c(0.25,0.75))
iqr <- diff(resid.q)
limits <- resid.q + 1.5*iqr*c(-1,1)
score <- abs(pmin((resid-limits[1])/iqr,0) + pmax((resid - limits[2])/iqr,0))
return(score)
}
# defining dates
dates <- as.POSIXct(seq(as.Date("2015-08-20"), as.Date("2015-10-08"), by = "days"))
Некоторые данные:
a<-runif(50, 5.0, 7.5)
b<-runif(50, 4, 8)
c<-runif(50, 1, 2)
d<-runif(50, 3, 3.5)
ca<-c/a
cb<-c/b
df<-data.frame(dates,a,b,c,d,ca,cb)
Представляем outlier
df[49,4]<-0
df[50,6]<-0
Прокрутите данные, чтобы найти аномалии
new<-lapply(df[,2:7],anomaly)
library(stringi) # binding list with differing rows
# from list to data frame
res <- as.data.frame((stri_list2matrix(new)))
# rename columns
colnames(res) <- names(new)
# depends on dates at the beginning
res<-(cbind(dates,res[,1:6]))
# melt to plot
library(reshape)
library(reshape2)
new <- melt(res , id.vars = 'dates', variable.name = 'series')
Отказ от графика с указанным date range
(последние 4 дня):
library(ggplot2)
nrdays <- 4
a.plot<-ggplot(subset(new, new$dates >= as.POSIXct(max(new$dates)- (nrdays*60*60*24))),
aes(x=dates,y=value,colour=variable,group=variable)) +
geom_line() +
facet_grid(variable ~ ., scales = "free_y")+
ylab("Outliers")+
xlab("Date")
Определение функции проверки данных:
check_data <- function(df) {
if(tail(df, 1) > 0) { # check only last date
return(a.plot)
# and the corresponding original series
}
}
# check and plot data
check_data(df)
Моя проблема в том, что у меня есть сотни функций, и мне хотелось бы только заговорить те, где произошел outlier
. Как вы можете видеть на графике, я могу придумать сюжет, который возвращает все временные ряды, включая серию с outlier, а также те, где имелся только outlier
. Кроме того, я хотел бы также сообщить об исходной серии (включая ratios
, т.е. С учетом outlier в соотношении ca
я хотел бы получить исходный ряд c
и a
)... как я могу подойти к этой проблеме. Таким образом, результат может выглядеть так:
including original series:
and the outlier as well: