Métodos para Generar Pseudoausencias en Modelamiento de Distribución de Especies (SDMs)
Este documento describe de forma clara, completa y práctica las principales estrategias para generar pseudoausencias (PA) en modelos de distribución de especies. Incluye fundamentos, ventajas, limitaciones y ejemplos en R para que puedan aplicarse en cualquier análisis.
1. Pseudoausencias aleatorias (Random PA)
Método más simple: selecciona puntos al azar dentro del área de estudio.
Uso recomendado
- Cuando no existe evidencia de sesgo espacial fuerte.
- Área accesible bien definida.
Código en R
pa <- spatSample(raster_template, n = N, method="random", as.points=TRUE)
Pros
- Rápido y robusto.
- Ampliamente utilizado en literatura.
Contras
- Puede generar puntos muy cercanos a presencias.
- Puede seleccionar ambientes muy similares.
2. Pseudoausencias restringidas por accesibilidad (M-area)
Basado en el marco BAM de Soberón: solo se generan PA dentro del área que la especie ha podido colonizar.
Código
pa <- spatSample(mask(raster_template, M_polygon), n = N, method="random")
Pros
- Evita extrapolación ecológicamente no realista.
- Considera dispersión histórica.
Contras
- Requiere definir M adecuadamente.
3. Estratificación ambiental
Divide el espacio ambiental en grupos y toma PA representando esa diversidad.
Código
env <- na.omit(as.data.frame(stack_env))
k <- 50
km <- kmeans(env, centers = k)
pa <- env %>%
mutate(cluster = km$cluster) %>%
group_by(cluster) %>%
sample_n(1)
Pros
- Cobertura ambiental uniforme.
- Evita redundancia.
Contras
- Decidir número de clusters (k).
4. Pseudoausencias con buffer
Impide seleccionar PA muy cerca de presencias reales.
Código
buffer_m <- 10000 # distancia en metros
pres_buf <- buffer(occ_sf, buffer_m)
pa_area <- erase(M_polygon, pres_buf)
pa <- spatSample(pa_area, n=N)
Pros
- Minimiza confusión entre presencia/ausencia.
- Reduce sobreajuste.
Contras
- Elegir tamaño del buffer requiere criterio ecológico.
5. Bias grid (pseudoausencias ponderadas por esfuerzo)
Imita el sesgo espacial de muestreo real (ej., cerca de caminos, ciudades o senderos).
Código
pa <- spatSample(bias_raster, n=N, method="probability")
Pros
- Corrige sesgo de muestreo.
- Ideal en herbarios y colecciones con sesgo espacial fuerte.
Contras
- Requiere una capa de esfuerzo (difícil de obtener).
6. Target-group background (TGBG)
Se generan PA usando registros de todas las especies colectadas bajo el mismo método/grupo taxonómico.
Código
tg <- read.csv("grupo_taxonomico.csv")
pa <- tg %>% select(lon,lat) %>% sample_n(N)
Pros
- Representa esfuerzo de muestreo real.
- Muy robusto en estudios macroecológicos.
Contras
- Necesita una gran base de datos taxonómica.
7. Pseudoausencias basadas en clustering ambiental
Divide el ambiente total en grupos homogéneos para seleccionar PA representativas.
Código
km <- kmeans(env, centers = 40)
# PA por cluster
Pros
- Garantiza cobertura ambiental amplia.
Contras
- Requiere preprocesamiento.
8. Máxima dispersión espacial (MaxDist / Maximin)
Genera PA lo más separadas posible y lejos de presencias.
Código
library(spatstat)
pp <- as.ppp(pres_xy, W=window)
pa <- rSSI(n=N, r=dist_min)
Pros
- Reduce redundancia espacial.
- Útil para áreas extensas.
Contras
- Computacionalmente costoso.
9. PA fuera del nicho ecológico (Envelope / Convex Hull)
Solo se generan PA fuera del espacio ambiental ocupado por las presencias.
Código
hull <- chull(env_pres)
pa <- sample_outside_hull(env_all, hull)
Pros
- Evita puntos ambientalmente ambiguos.
- Reduce sobreajuste.
Contras
- El nicho puede estar submuestreado.
10. Pseudoausencias iterativas (dos pasos)
- Modelo inicial simple (SRE, GLM).
- PA generadas donde el modelo predice baja probabilidad.
Pros
- Genera PA más informadas.
- Muy útil para especies mal muestreadas.
Contras
- Depende del primer modelo.
11. Métodos de una sola clase (One-Class ML)
Ejemplo: SVM de una sola clase (OC-SVM).
Uso
Define la región probable del nicho → PA fuera de ella.
Pros
- Ideal para datos de presencia solamente.
Contras
- Más complejo y menos difundido.
📊 Resumen Comparativo
| Método | Ventajas | Desventajas | Ideal para |
|---|---|---|---|
| Aleatorio | Simple y reproducible | Ambiguo cerca de presencias | Áreas bien muestreadas |
| M-area | Ecológicamente realista | Requiere delimitar M | Estudios biogeográficos |
| Estratificado | Cubre ambiente completo | Requiere clustering | Regiones muy heterogéneas |
| Buffer | Reduce ambigüedad | Elegir buffer es crítico | Especies móviles o muestreo denso |
| Bias grid | Corrige sesgo | Requiere capa de esfuerzo | Herbarios, museos |
| TGBG | Representa esfuerzo real | Requiere base grande | Macroecología |
| MaxDist | PA muy diversas | Computo intensivo | Paisajes grandes |
| Envelope | Evita PA dentro del nicho | Nicho mal definido puede fallar | Nichos estrechos |
| Iterativas | PA más inteligentes | Depende del modelo inicial | Especies raras |
| One-class | Útil con pocos datos | Complejo | Casos críticos |
📘 **Autor:** Eduardo Fuentes-Lillo 🧩 **Proyecto:** Curso SENCE-IEB — Gestión y modelamiento de datos de biodiversidad 📅 **Actualizado:** Octubre 2025