Web Analytics

missForest

⭐ 105 stars Spanish by stekhoven

missForest

CRAN status CRAN RStudio mirror downloads CRAN RStudio mirror downloads R-CMD-check test-coverage License: GPL (≥ 2)-blue.svg)

missForest es un método de imputación no paramétrico para datos tabulares de tipos mixtos en R. Maneja variables numéricas y categóricas simultáneamente entrenando de forma iterativa bosques aleatorios para predecir entradas faltantes a partir de las observadas. Sin supuestos explícitos de modelado, sin factorizaciones de matrices—solo bases predictivas sólidas que funcionan bien desde el inicio.

El paquete también incluye utilidades para medir el error de imputación, generar datos faltantes para experimentos e inspeccionar tipos de variables.


Instalación

# CRAN (recommended)
install.packages("missForest")

Development version (from GitHub)

install.packages("remotes")

remotes::install_github("stekhoven/missForest")


Quick start

library(missForest)

Example data

data(iris)

Introduce ~20% MCAR missingness

set.seed(81) iris_mis <- prodNA(iris, noNA = 0.20)

Impute with default backend (ranger)

imp <- missForest(iris_mis, xtrue = iris, verbose = TRUE)

Imputed data

head(imp$ximp)

Estimated OOB errors (NRMSE for numeric, PFC for factors)

imp$OOBerror

True error if xtrue was provided (for benchmarking only)

imp$error

Elegir un backend

# Legacy behavior using randomForest
imp_rf <- missForest(iris_mis, backend = "randomForest")

Explicitly use ranger with limited threads

imp_rg <- missForest(iris_mis, backend = "ranger", num.threads = 2)

Paralelización

Dos modos están disponibles a través de parallelize:

# Not run:

library(doParallel)

registerDoParallel(2)

imp_vars <- missForest(iris_mis, parallelize = "variables", verbose = TRUE)

imp_fors <- missForest(iris_mis, parallelize = "forests", verbose = TRUE, num.threads = 2)


Descripción general de la API

missForest(xmis, ...)

Función principal de imputación.

Argumentos clave:

Algunos mapeos de argumentos para backend = "ranger":

Utilidades

---

Consejos y mejores prácticas

  set.seed(123); imp <- missForest(x)
  ``
  • Puedes reducir ntree durante la creación de prototipos para acelerar la iteración.
---

Cita

Si usas missForest, por favor cita:

Stekhoven, D. J. & Bühlmann, P. (2012). MissForest—imputación no paramétrica de valores faltantes para datos de tipo mixto.* Bioinformatics, 28(1), 112–118. https://doi.org/10.1093/bioinformatics/btr597

También puedes citar el paquete:

r citation("missForest") ``


Contributing

Issues and pull requests are welcome. Please include a minimal reproducible example when reporting bugs. For performance discussions, share small benchmarks and session info.


License

GPL (≥ 2)


Contact

Daniel J. Stekhoven — stekhoven@nexus.ethz.ch


--- Tranlated By Open Ai Tx | Last indexed: 2025-12-08 ---