3.5. Un flujograma para la completación de datos


Fig 1. Flujograma para la completación de datos faltantes de precipitación, considerando el factor clima como la presencia del Fenómeno El Niño (FEN) y diferentes métodos propuestos. (Fuente: Rau, 2019)

Apunte de clase: Pedro Rau

Algunas consideraciones para la completación de datos:

1° La completación o imputación de datos es una actividad imprescindible en los análisis de series de tiempo. Dependiendo de la variable hidrológica como la precipitación, temperatura y caudal; además del paso de tiempo como el mensual y anual, se optará por diversos métodos. Las condiciones de la variabilidad climática propia de la ubicación geográfica de la zona de estudio, también es importante debido a la posible alteración del régimen de las variables hidrológicas. Asimismo, es crucial el número de datos faltantes. Por ejemplo algunas "reglas de oro" recopiladas por la OMM (Organización Meteorológica Mundial) como la regla de 3/5 (completar si se tiene hasta 3 datos faltantes continuos o hasta 5 datos faltantes no continuos) para datos diarios y que podría ser aplicado hasta datos mensuales ó nuevas reglas de uso como la regla de 4/10 (completar si se tiene hasta 4 datos faltantes continuos o hasta 10 datos faltantes no continuos) para datos diarios (Anderson y Gough, 2018).

2° El flujograma de la Figura 1, muestra los diversos casos que se presentan en la completación, iniciando con el reconocimiento del tipo de series de tiempo entre no estacionarias y estacionarias. En los casos con un impacto fuerte de la variabilidad climática como por ejemplo a causa del fenómeno El Niño, es evidente que se presenten series de tiempo no estacionarias. De no estar seguro, es posible el empleo de pruebas estadísticas para determinar la no-estacionariedad. Siguiendo las cajas de la parte izquierda, se puede llegar al caso donde no se recomienda completar para el caso que se tenga una serie no estacionaria, con vacíos en la época húmeda y coincidente con la ocurrencia del Fenómeno El Niño. Mientras que hacia el lado derecho de la figura, se sugieren los métodos basados en modelos de regresiones lineales para cada mes con información de regiones climáticamente homogéneas obtenidos por ejemplo con el método del Vector Regional o serie de referencia de una estación vecina (ver Ecuación 1), siempre en cuando el modelo de regresión sea validado con estadísticos como el coeficiente de correlación superior a 0.7. Y en ultima instancia el empleo del método del promedio mensual para una misma estación (ver Ecuación 2).

Ec 1. Completación de datos faltantes X, por el método del modelo de regresión lineal (lm) entre los registros X y una serie de referencia R.

Donde:
i es el número de mes (Ejm: 1 al 12)
j es el número correspondiente a n años (Ejm: 1980 al 2020, 41 años)
Xi,j es el dato faltante en el mes i del año j
Ri es la serie del mes i de la estación de referencia (ejm: región climática homogénea o estación vecina)
Slm es la pendiente del modelo de regresión lineal para cada mes entre las series R y X
klm es el término independiente del modelo de regresión lineal mensual entre las series R y X

Ec 2. Completación de datos faltantes X, por el método del promedio mensual.

Donde:
Xi,j es el dato faltante en el mes i del año j
Xi es la serie de datos del mes i para todos los años
i es el número de mes (Ejm: 1 al 12)
j es el número correspondiente a n años (Ejm: 1980 al 2020, 41 años)

3° Con el avance tecnológico, es posible contar con datos secundarios de tipo satelital y de reanálisis climático e hidrológico en formato grilla, los cuales presentan generalmente datos completos y extensos. El escenario de corrección del tipo "punto-grilla" puede realizarse cuidadosamente con los métodos de "downscaling" o "desescalado" como el método "delta" y "quantil mapping". A su vez, se propone un método para zonas de montañas o regiones homogéneas en Condom et al (2011) y Rau y Condom (2010), inspirado en los datos TRMM y de aplicación para la completación de datos en una estación, en función de una grilla coincidente (ver ecuación 3). Este procedimiento es posible efectuarlo en el sistema R o programa Rstudio con el paquete hydRopclim (Rau et al, 2023) disponible en https://github.com/hydrocodes/hydRopclim donde es necesario preparar un archivo CSV conteniendo los datos de la estación con vacíos y la grilla coincidente completo en año calendario de enero a diciembre.

Ec 3. Completación de datos faltantes X, por el método de corrección punto-grilla

Donde:
i es el número de mes (Ejm: 1 al 12)
j es el número correspondiente a n años (Ejm: 1980 al 2020, 41 años)
Xi,j es el dato faltante en el mes i del año j
Gridi,j es la serie de datos de la grilla coincidente con la estación, para el mes i del año j
fi: es un vector mensual de corrección basado en un modelo multiplicativo obtenido de X y Grid.

4° Para pasos de tiempo diario y horario, el desafío está muy relacionado al tipo de distribución probabilística de los datos, la cantidad de vacíos y la ubicación geográfica de la zona de estudio. La elección del método más adecuado, actualmente nos conduce a las técnicas de machine learning (ejm: paquete missForest en R), sin embargo es necesario el criterio y experiencia para validar esquemas complejos de entrenamiento de modelos y la generación de datos.

Referencias:
-Anderson CI, Gough WA. Accounting for missing data in monthly temperature series: Testing rule-of-thumb omission of months with missing values. Int J Climatol. 2018; 38: 4990–5002. https://doi.org/10.1002/joc.5801
-Condom T, Rau P, Espinoza JC, 2011. Correction of TRMM 3B43 monthly precipitation data over the mountainous areas of Peru during the period 1998-2007. Hydrological Processes. 25(12):1924-1933. 
-Rau P, Castillon F, Bourrel L. 2023. A tool in R for easy hydroclimatic calculations. In: Recent Research on Hydrogeology, Geoecology and Atmospheric Sciences. MedGU 2021. Advances in Science, Technology and Innovation. 13-16. https://doi.org/10.1007/978-3-031-43169-2_3
-Rau P. Aportes en ingeniería hidrológica de zonas áridas. Casos aplicados a la vertiente del Pacífico peruano. VII Congreso internacional de Hidráulica, Hidrología, Saneamiento y Medio Ambiente. ICG. Instituto de la Construcción y Gerencia. 2019, 1 Noviembre. Lima, Peru.
-Rau P, Condom T. 2010. Análisis espacio temporal de la precipitación en las zonas de montaña de Perú (1998-2007). Revista Peruana Geo-Atmosferica. RPGA(2), 16-29.

No hay comentarios. :