Web Analytics

missForest

⭐ 105 stars French by stekhoven

missForest

CRAN status CRAN RStudio mirror downloads CRAN RStudio mirror downloads R-CMD-check test-coverage License: GPL (≥ 2)-blue.svg)

missForest est une méthode d'imputation non paramétrique pour les données tabulaires de type mixte dans R. Elle gère simultanément les variables numériques et catégorielles en entraînant itérativement des forêts aléatoires pour prédire les valeurs manquantes à partir des valeurs observées. Aucune hypothèse de modélisation explicite, pas de factorisation de matrice—juste des bases prédictives solides qui fonctionnent bien dès le départ.

Le package inclut également des utilitaires pour mesurer l'erreur d'imputation, générer des données manquantes pour les expériences, et inspecter les types de variables.


Installation

# CRAN (recommended)
install.packages("missForest")

Development version (from GitHub)

install.packages("remotes")

remotes::install_github("stekhoven/missForest")


Quick start

library(missForest)

Example data

data(iris)

Introduce ~20% MCAR missingness

set.seed(81) iris_mis <- prodNA(iris, noNA = 0.20)

Impute with default backend (ranger)

imp <- missForest(iris_mis, xtrue = iris, verbose = TRUE)

Imputed data

head(imp$ximp)

Estimated OOB errors (NRMSE for numeric, PFC for factors)

imp$OOBerror

True error if xtrue was provided (for benchmarking only)

imp$error

Choisir un backend

# Legacy behavior using randomForest
imp_rf <- missForest(iris_mis, backend = "randomForest")

Explicitly use ranger with limited threads

imp_rg <- missForest(iris_mis, backend = "ranger", num.threads = 2)

Parallélisation

Deux modes sont disponibles via parallelize :

# Not run:

library(doParallel)

registerDoParallel(2)

imp_vars <- missForest(iris_mis, parallelize = "variables", verbose = TRUE)

imp_fors <- missForest(iris_mis, parallelize = "forests", verbose = TRUE, num.threads = 2)


Vue d'ensemble de l'API

missForest(xmis, ...)

Fonction principale d'imputation.

Arguments clés :

Quelques correspondances d'arguments pour backend = "ranger" :

Utilitaires

---

Conseils & bonnes pratiques

  set.seed(123); imp <- missForest(x)
  ``
  • Vous pouvez réduire ntree lors du prototypage pour accélérer les itérations.
---

Citation

Si vous utilisez missForest, veuillez citer :

Stekhoven, D. J. & Bühlmann, P. (2012). MissForest—imputation non paramétrique des valeurs manquantes pour des données de type mixte.* Bioinformatics, 28(1), 112–118. https://doi.org/10.1093/bioinformatics/btr597

Vous pouvez également citer le package :

r citation("missForest") ``


Contributing

Issues and pull requests are welcome. Please include a minimal reproducible example when reporting bugs. For performance discussions, share small benchmarks and session info.


License

GPL (≥ 2)


Contact

Daniel J. Stekhoven — stekhoven@nexus.ethz.ch


--- Tranlated By Open Ai Tx | Last indexed: 2025-12-08 ---