Además de lo que te ha dicho Carlos... Cada serie es muy particular, pero de forma general, puedes empezar tomando todos los datos e ir tomando un valor menos cada vez. Es decir: - con 1:n-1 predices n, - con 1:n-2 predices n-1, etc Es muy fácil de programar. Ve guardando los parámetros del modelo que te da el auto.arima en una lista o una matriz. Verás desde el final hacia el principio que el auto.arima te da más o menos unos parámetros "homogéneos" (depende de la serie, alguna hay muy, muy difícil y vuelve loco a los sistemas automáticos). Sabrás qué cantidad de datos coger cuando veas qué cantidad de valores te produce modelos más o menos homogéneos. Es decir, si la serie es "buena gente", tomando una cantidad suficiente de datos, los modelos que te saca el auto.arima son más o menos estables. Una vez que veas qué cantidad te vale, en tu caso, que tienes muchos datos, yo cogería bastantes más por seguridad (un 50% más o incluso el doble). Y una vez que sepas qué ventana usar, correría de nuevo el modelo SIN usar los datos desde el principio, sino corriendo la ventana desde el principio hasta el final. No sé si me explico bien. Imagina que ves que tomando una ventana de 1000 datos funciona más o menos bien. En este caso, para evaluar el modelo, ejecutas desde el principio la predicciones de la forma siguiente: - con 1:1000 predices 1001, - con 2:1001 predices 1002, etc. Perdón por el rollo... XD
Isidro Hidalgo Arellano Observatorio de las Ocupaciones Consejería de Economía, Empresas y Empleo http://www.castillalamancha.es/ > -----Mensaje original----- > De: R-help-es [mailto:[email protected]] En nombre de > Carlos Ortega > Enviado el: lunes, 08 de febrero de 2016 14:25 > Para: AURORA GONZALEZ VIDAL <[email protected]> > CC: Lista R <[email protected]> > Asunto: Re: [R-es] tamaño de rolling window (series temporales) > > Hola, > > Sí, una forma de hacerlo es utilizando el concepto de "Time slicing" que > implementa el paquete de "caret". > Efectivamente es un concepto para hacer cross-validation a la hora de > evaluar tu modelo. > > Como referencias, te recomiendo esto: > > - > http://stackoverflow.com/questions/24758218/time-series-data-spliting- > and-model-evaluation > - > http://stackoverflow.com/questions/29209570/how-to-use-cross- > validation-method-time-slices-using-caret-ensemble-package-in-r > - Y que revises el capítulo 4 (Over-Fitting and Model Tunning) del libro > de Max Kuhn (Applied Predictive Modeling). > > Lamentablemente no estoy en Murcia para que me invites a un café... > > Saludos, > Carlos Ortega > www.qualityexcellence.es > > El 8 de febrero de 2016, 14:00, AURORA GONZALEZ VIDAL < > [email protected]> escribió: > > > Hola!! > > > > Estoy intentando evaluar mi modelo de series temporales (uso auto.arima). > > Para ello he implemetado el método "rolling window" que se basa en ir > > añadiendo progresivamente datos al conjunto de train para testar el > > modelo. Por ejemplo: > > > > - Train: 1 año, test: día 1 (24 observaciones, una por hora) --> > > evalúo ese día (RMSE por ejemplo) > > - Train: 1 año + 1 día, test: día 2 --> evalúo ese día (RMSE) > > - Train: 1 año + 2 días, test: día 3 --> evalúo ese día (RMSE) ... > > > > así hasta el final. Después, saco la media y la desviación estándard > > de la RMSE y considero que esa es la evaluación de mi modelo. > > > > La duda es, ¿dónde empiezo? Es decir, ¿hago este proceso 10 veces (con > > 10 días), 50 veces (con 50 días)...? ¿Lo hago con un porcentaje > > específico del total de observaciones? > > > > No es lo mismo pero para los métodos de machine learning se coge 75 % > > train y 25 % test. ¿Hay algo análogo? Esto sería más bien como los > > resamplings (leave one out)... que tú decides cuántos hacer pero > > querría saber si hay algún consenso. He leído por ahí que el 50% de la > > muestra estaría bien > > > > http://www.early-warning-signals.org/time-series-methods/metric-based- > > indicators/general-steps-for-rolling-window-metrics/ > > pero tengo datos desde 2014, o sea, más de 17520 obsrvaciones > ¿opiniones? > > > > Si alguien puede responder por aquí bien, y si hay algún experto por > > Murcia o alrededores estaré encantada de invitarle a un café. > > > > Saludos y muchas gracias. > > > > > > ------ > > Aurora González Vidal > > Phd student in Data Analytics for Energy Efficiency > > > > Faculty of Computer Sciences > > University of Murcia > > > > @. [email protected] > > T. 868 88 7866 > > www.um.es/ae > > > > [[alternative HTML version deleted]] > > > > _______________________________________________ > > R-help-es mailing list > > [email protected] > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > > > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > [email protected] > https://stat.ethz.ch/mailman/listinfo/r-help-es _______________________________________________ R-help-es mailing list [email protected] https://stat.ethz.ch/mailman/listinfo/r-help-es
