0
votes

Meilleur moyen de former un modèle de régression donnée des données de séries chronologiques

données données de la semaine 1 et 2 semaines, j'essaie de former un modèle pour prédire les données de la semaine 3.

L'étiquette cible est appelée cible .

Je suis confus sur ce que doivent servir de fonctionnalités correctes pour former le modèle étant donné que ce problème regarde une action historique de l'utilisateur pour prédire leur future action

Données de train < Pré> xxx

Données de test (voir date ultérieure) xxx

1) Je vous demande si il est correct de garder l'identifiant comme une fonctionnalité dans les données de formation ? Je sais que la plupart des problèmes de ML ne conservent pas le champ ID, mais ce problème est un peu différent de ce que le champ ID est utilisé dans l'ensemble de données de test.

2) Je planifie Pour déposer le champ Date


0 commentaires

3 Réponses :



0
votes

Vos données ont trop moins de fonctionnalités, vous pouvez essayer plusieurs modèles tels que Sarima comme suggéré par Pierre, mais avec uniquement les fonctionnalités que vous pourriez avoir du mal, je vous suggère d'essayer de tracer une matrice de corrélation et de voir s'il y a un co -Relation entre les entrées et les sorties, s'il n'y a pas de modèle ne peut vous aider, s'il existe une co-relation entre les fonctionnalités, seul un modèle sera en mesure d'apprendre cette co-relation et généraliser.

Ce lien peut être utile si vous ne savez pas tracer une matrice de co-relation https://seachborn.pydata.org/examples/many_pairwise_corrélations.html

Ce lien peut vous aider à donner un sens à la matrice de co-relation si vous n'êtes pas familier avec eux https://machinelearnmastery.com/how -Autilisation-user-corrélation-to-compréhensif-la relation entre-variables /

Si vous êtes incapable de comprendre quelque chose des liens, n'hésitez pas à commenter.


0 commentaires

1
votes

1) je me demande s'il est correct de garder l'identifiant comme une fonctionnalité de la données d'entraînement? Je sais que la plupart des problèmes ml ne gardent pas le champ ID, mais Ce problème est un peu différent que le même champ d'identification est en train d'être utilisé dans le jeu de données de test.

Comme je vois que vous avez deux types de dates pour le même ID (dans les deux ensembles de train et de test). Donc, si ce ID représente quelque chose lié à la cible - gardez-le. Sinon, déposez-le.

2) Je prévois de déposer le champ de date

Et vous perdrez une année, des mois, un numéro de semaine, un numéro de jour, une marque de jour de vacances aussi possible.

En plus de Sarima, je peux vous conseiller d'essayer d'adapter un modèle de régression ici. Parfois, ils travaillent dans des tâches de la série temporelle.


1 commentaires

Merci! J'ai d'abord essayé le modèle de régression avant la série chronologique, alors j'essaie aussi une série de temps. Et oui, il est logique que je devrais garder l'identifiant et la date alors