Hola!! Estoy intentando evaluar mi modelo de series temporales (uso auto.arima). Para ello he implemetado el método "rolling window" que se basa en ir añadiendo progresivamente datos al conjunto de train para testar el modelo. Por ejemplo:
- Train: 1 año, test: día 1 (24 observaciones, una por hora) --> evalúo ese día (RMSE por ejemplo) - Train: 1 año + 1 día, test: día 2 --> evalúo ese día (RMSE) - Train: 1 año + 2 días, test: día 3 --> evalúo ese día (RMSE) ... así hasta el final. Después, saco la media y la desviación estándard de la RMSE y considero que esa es la evaluación de mi modelo. La duda es, ¿dónde empiezo? Es decir, ¿hago este proceso 10 veces (con 10 días), 50 veces (con 50 días)...? ¿Lo hago con un porcentaje específico del total de observaciones? No es lo mismo pero para los métodos de machine learning se coge 75 % train y 25 % test. ¿Hay algo análogo? Esto sería más bien como los resamplings (leave one out)... que tú decides cuántos hacer pero querría saber si hay algún consenso. He leído por ahí que el 50% de la muestra estaría bien http://www.early-warning-signals.org/time-series-methods/metric-based-indicators/general-steps-for-rolling-window-metrics/ pero tengo datos desde 2014, o sea, más de 17520 obsrvaciones ¿opiniones? Si alguien puede responder por aquí bien, y si hay algún experto por Murcia o alrededores estaré encantada de invitarle a un café. Saludos y muchas gracias. ------ Aurora González Vidal Phd student in Data Analytics for Energy Efficiency Faculty of Computer Sciences University of Murcia @. [email protected] T. 868 88 7866 www.um.es/ae [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list [email protected] https://stat.ethz.ch/mailman/listinfo/r-help-es
