Как преобразовать столбец фрейма данных в числовой тип?
Как преобразовать столбец фрейма данных в числовой тип?
Ответ 1
Поскольку (все еще) никто не получил чек-марку, я предполагаю, что у вас есть какая-то практическая проблема, в основном потому, что вы не указали, какой тип вектора вы хотите преобразовать в numeric
. Я предлагаю вам применить функцию transform
для выполнения вашей задачи.
Теперь я собираюсь продемонстрировать определенную "аномалию преобразования":
# create dummy data.frame
d <- data.frame(char = letters[1:5],
fake_char = as.character(1:5),
fac = factor(1:5),
char_fac = factor(letters[1:5]),
num = 1:5, stringsAsFactors = FALSE)
Давайте взглянем на data.frame
> d
char fake_char fac char_fac num
1 a 1 1 a 1
2 b 2 2 b 2
3 c 3 3 c 3
4 d 4 4 d 4
5 e 5 5 e 5
и запустим:
> sapply(d, mode)
char fake_char fac char_fac num
"character" "character" "numeric" "numeric" "numeric"
> sapply(d, class)
char fake_char fac char_fac num
"character" "character" "factor" "factor" "integer"
Теперь вы, вероятно, спросите себя "Где аномалия?" Ну, я столкнулся с весьма своеобразными вещами в R, и это не самая самая смешающая вещь, но это может вас смутить, особенно если вы прочитаете это, прежде чем вскарабкаться в постель.
Здесь: первые два столбца character
. Я преднамеренно назвал 2 nd one fake_char
. Определите сходство этой переменной character
с той, которую создал Дирк в своем ответе. Это фактически вектор numerical
, преобразованный в character
. 3 rd и 4 th: factor
, а последний - "чисто" numeric
.
Если вы используете функцию transform
, вы можете преобразовать fake_char
в numeric
, но не в переменную char
.
> transform(d, char = as.numeric(char))
char fake_char fac char_fac num
1 NA 1 1 a 1
2 NA 2 2 b 2
3 NA 3 3 c 3
4 NA 4 4 d 4
5 NA 5 5 e 5
Warning message:
In eval(expr, envir, enclos) : NAs introduced by coercion
но если вы сделаете то же самое на fake_char
и char_fac
, вам повезет и уйти без NA:
> transform(d, fake_char = as.numeric(fake_char),
char_fac = as.numeric(char_fac))
char fake_char fac char_fac num
1 a 1 1 1 1
2 b 2 2 2 2
3 c 3 3 3 3
4 d 4 4 4 4
5 e 5 5 5 5
Если вы сохранили преобразованный data.frame
и проверьте mode
и class
, вы получите:
> D <- transform(d, fake_char = as.numeric(fake_char),
char_fac = as.numeric(char_fac))
> sapply(D, mode)
char fake_char fac char_fac num
"character" "numeric" "numeric" "numeric" "numeric"
> sapply(D, class)
char fake_char fac char_fac num
"character" "numeric" "factor" "numeric" "integer"
Итак, вывод: Да, вы можете преобразовать вектор character
в numeric
один, но только если его элементы "конвертируются" в numeric
. Если в векторе есть только один элемент character
, вы получите ошибку при попытке конвертировать этот вектор в numerical
один.
И просто чтобы доказать свою точку зрения:
> err <- c(1, "b", 3, 4, "e")
> mode(err)
[1] "character"
> class(err)
[1] "character"
> char <- as.numeric(err)
Warning message:
NAs introduced by coercion
> char
[1] 1 NA 3 4 NA
И теперь, просто для удовольствия (или практики), попытайтесь угадать вывод этих команд:
> fac <- as.factor(err)
> fac
???
> num <- as.numeric(fac)
> num
???
С уважением к Патрику Бернсу! =)
Ответ 2
Что-то, что мне помогло: если у вас есть диапазоны переменных для преобразования (или чуть больше одного), вы можете использовать sapply
.
Немного бессмысленно, но только, например:
data(cars)
cars[, 1:2] <- sapply(cars[, 1:2], as.factor)
Скажите, что столбцы 3, 6-15 и 37 из вас должны быть преобразованы в числовые:
dat[, c(3,6:15,37)] <- sapply(dat[, c(3,6:15,37)], as.numeric)
Ответ 3
если x
- это имя столбца dataframe dat
, а x
- фактор типа, используйте:
as.numeric(as.character(dat$x))
Ответ 4
Я бы добавил комментарий (возможно, низкий рейтинг)
Просто добавьте на user276042 и pangratz
dat$x = as.numeric(as.character(dat$x))
Это переопределит значения существующего столбца x
Ответ 5
Тим прав, и у Шейна есть упущение. Ниже приведены дополнительные примеры:
R> df <- data.frame(a = as.character(10:15))
R> df <- data.frame(df, num = as.numeric(df$a),
numchr = as.numeric(as.character(df$a)))
R> df
a num numchr
1 10 1 10
2 11 2 11
3 12 3 12
4 13 4 13
5 14 5 14
6 15 6 15
R> summary(df)
a num numchr
10:1 Min. :1.00 Min. :10.0
11:1 1st Qu.:2.25 1st Qu.:11.2
12:1 Median :3.50 Median :12.5
13:1 Mean :3.50 Mean :12.5
14:1 3rd Qu.:4.75 3rd Qu.:13.8
15:1 Max. :6.00 Max. :15.0
R>
Наше data.frame
теперь имеет сводку столбца факторов (счетчиков) и числовых сводок as.numeric()
---, который является неправильным, поскольку он получил уровни числового фактора --- и (правильное) резюме as.numeric(as.character())
.
Ответ 6
С помощью следующего кода вы можете преобразовать все столбцы фрейма данных в числовые (X - это кадр данных, который мы хотим преобразовать в его столбцы):
as.data.frame(lapply(X, as.numeric))
и для преобразования целой матрицы в числовой, у вас есть два пути: Или:
mode(X) <- "numeric"
или
X <- apply(X, 2, as.numeric)
В качестве альтернативы вы можете использовать функцию data.matrix
, чтобы преобразовать все в числовые, хотя имейте в виду, что факторы могут не преобразовываться правильно, поэтому безопаснее сначала преобразовать все в character
:
X <- sapply(X, as.character)
X <- data.matrix(X)
Обычно я использую этот последний, если я хочу, чтобы преобразовывался в матрицу и числовое число одновременно
Ответ 7
В то время как ваш вопрос строго о числовых значениях, есть много преобразований, которые трудно понять при начале R. Я постараюсь обратиться к методам, чтобы помочь. Этот вопрос похож на этот вопрос.
Преобразование типов может быть проблемой в R, потому что (1) факторы не могут быть преобразованы непосредственно в числовые, их нужно сначала преобразовать в класс символов, (2) даты представляют собой особый случай, с которым вам обычно приходится иметь дело отдельно, и (3) цикл по столбцам фрейма данных может быть сложным. К счастью, "Tidyverse" решил большинство проблем.
Это решение использует mutate_each()
для применения функции ко всем столбцам в фрейме данных. В этом случае мы хотим применить type.convert()
, которая преобразует строки в числовые, где это возможно. Поскольку R любит факторы (не знаю почему), столбцы символов, которые должны оставаться символами, меняются на фактор. Чтобы исправить это, mutate_if()
используется для обнаружения столбцов, которые являются факторами и переходят в символьные. Наконец, я хотел показать, как lubridate можно использовать для изменения метки времени в классе символов на дату-время, потому что это также часто является препятствующим блоком для начинающих.
library(tidyverse)
library(lubridate)
# Recreate data that needs converted to numeric, date-time, etc
data_df
#> # A tibble: 5 × 9
#> TIMESTAMP SYMBOL EX PRICE SIZE COND BID BIDSIZ OFR
#> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
#> 1 2012-05-04 09:30:00 BAC T 7.8900 38538 F 7.89 523 7.90
#> 2 2012-05-04 09:30:01 BAC Z 7.8850 288 @ 7.88 61033 7.90
#> 3 2012-05-04 09:30:03 BAC X 7.8900 1000 @ 7.88 1974 7.89
#> 4 2012-05-04 09:30:07 BAC T 7.8900 19052 F 7.88 1058 7.89
#> 5 2012-05-04 09:30:08 BAC Y 7.8900 85053 F 7.88 108101 7.90
# Converting columns to numeric using "tidyverse"
data_df %>%
mutate_all(type.convert) %>%
mutate_if(is.factor, as.character) %>%
mutate(TIMESTAMP = as_datetime(TIMESTAMP, tz = Sys.timezone()))
#> # A tibble: 5 × 9
#> TIMESTAMP SYMBOL EX PRICE SIZE COND BID BIDSIZ OFR
#> <dttm> <chr> <chr> <dbl> <int> <chr> <dbl> <int> <dbl>
#> 1 2012-05-04 09:30:00 BAC T 7.890 38538 F 7.89 523 7.90
#> 2 2012-05-04 09:30:01 BAC Z 7.885 288 @ 7.88 61033 7.90
#> 3 2012-05-04 09:30:03 BAC X 7.890 1000 @ 7.88 1974 7.89
#> 4 2012-05-04 09:30:07 BAC T 7.890 19052 F 7.88 1058 7.89
#> 5 2012-05-04 09:30:08 BAC Y 7.890 85053 F 7.88 108101 7.90
Ответ 8
Если у вас возникают проблемы с:
as.numeric(as.character(dat$x))
Взгляните на ваши десятичные знаки. Если они "," вместо "." (например, "5,3" ) выше не будет работать.
Потенциальное решение:
as.numeric(gsub(",", ".", dat$x))
Я считаю, что это довольно часто встречается в некоторых англоязычных странах.
Ответ 9
Универсальный способ с использованием type.convert()
и rapply()
:
convert_types <- function(x) {
stopifnot(is.list(x))
x[] <- rapply(x, utils::type.convert, classes = "character",
how = "replace", as.is = TRUE)
return(x)
}
d <- data.frame(char = letters[1:5],
fake_char = as.character(1:5),
fac = factor(1:5),
char_fac = factor(letters[1:5]),
num = 1:5, stringsAsFactors = FALSE)
sapply(d, class)
#> char fake_char fac char_fac num
#> "character" "character" "factor" "factor" "integer"
sapply(convert_types(d), class)
#> char fake_char fac char_fac num
#> "character" "integer" "factor" "factor" "integer"
Ответ 10
Чтобы преобразовать столбец фрейма данных в числовой, вам просто нужно: -
factor to numeric: -
data_frame$column <- as.numeric(as.character(data_frame$column))
Ответ 11
Хотя другие хорошо освещали эту тему, я хотел бы добавить эту дополнительную подсказку/подсказку. Вы можете использовать regexp, чтобы заранее проверить, могут ли персонажи состоять только из числа.
for(i in seq_along(names(df)){
potential_numcol[i] <- all(!grepl("[a-zA-Z]",d[,i]))
}
# and now just convert only the numeric ones
d <- sapply(d[,potential_numcol],as.numeric)
Для более сложных регулярных выражений и аккуратного, чтобы узнать/испытать свою силу, посмотрите этот действительно хороший сайт: http://regexr.com/
Ответ 12
В моем ПК (R v.3.2.3), apply
или sapply
дают ошибку. lapply
работает хорошо.
dt[,2:4] <- lapply(dt[,2:4], function (x) as.factor(as.numeric(x)))
Ответ 13
Учитывая, что могут существовать столбцы с символами, это основано на @Abdou в разделе Получить типы столбцов таблицы Excel, который автоматически отвечает:
makenumcols<-function(df){
df<-as.data.frame(df)
df[] <- lapply(df, as.character)
cond <- apply(df, 2, function(x) {
x <- x[!is.na(x)]
all(suppressWarnings(!is.na(as.numeric(x))))
})
numeric_cols <- names(df)[cond]
df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric)
return(df)
}
df<-makenumcols(df)
Ответ 14
Чтобы преобразовать символ в число, вы должны преобразовать его в коэффициент, применив
BankFinal1 <- transform(BankLoan, LoanApproval=as.factor(LoanApproval))
BankFinal1 <- transform(BankFinal1, LoanApp=as.factor(LoanApproval))
Необходимо создать два столбца с одинаковыми данными, поскольку один столбец не может быть преобразован в числовой. Если вы сделаете одно преобразование, вы получите ошибку
transform(BankData, LoanApp=as.numeric(LoanApproval))
Warning message: In eval(substitute(list(...)), '_data', parent.frame()) : NAs introduced by coercion
Итак, после выполнения двух столбцов одних и тех же данных применяются
BankFinal1 <- transform(BankFinal1, LoanApp = as.numeric(LoanApp),
LoanApproval = as.numeric(LoanApproval))
успешно преобразует символ в числовой
Ответ 15
Если в кадре данных есть несколько типов столбцов, некоторые символы, некоторые числовые, попробуйте следующее, чтобы преобразовать только столбцы, содержащие числовые значения, в числовые:
for (i in 1:length(data[1,])){
if(length(as.numeric(data[,i][!is.na(data[,i])])[!is.na(as.numeric(data[,i][!is.na(data[,i])]))])==0){}
else {
data[,i]<-as.numeric(data[,i])
}
}
Ответ 16
с хабларом :: конвертировать
Чтобы легко преобразовать несколько столбцов в разные типы данных, вы можете использовать hablar::convert
. Простой синтаксис: df %>% convert(num(a))
преобразует столбец a из df в числовой.
Подробный пример
Позволяет преобразовать все столбцы mtcars
в символ.
df <- mtcars %>% mutate_all(as.character) %>% as_tibble()
> df
# A tibble: 32 x 11
mpg cyl disp hp drat wt qsec vs am gear carb
<chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
1 21 6 160 110 3.9 2.62 16.46 0 1 4 4
2 21 6 160 110 3.9 2.875 17.02 0 1 4 4
3 22.8 4 108 93 3.85 2.32 18.61 1 1 4 1
С hablar::convert
:
library(hablar)
# Convert columns to integer, numeric and factor
df %>%
convert(int(cyl, vs),
num(disp:wt),
fct(gear))
результаты в:
# A tibble: 32 x 11
mpg cyl disp hp drat wt qsec vs am gear carb
<chr> <int> <dbl> <dbl> <dbl> <dbl> <chr> <int> <chr> <fct> <chr>
1 21 6 160 110 3.9 2.62 16.46 0 1 4 4
2 21 6 160 110 3.9 2.88 17.02 0 1 4 4
3 22.8 4 108 93 3.85 2.32 18.61 1 1 4 1
4 21.4 6 258 110 3.08 3.22 19.44 1 0 3 1