données données de la semaine 1 et 2 semaines, j'essaie de former un modèle pour prédire les données de la semaine 3.
L'étiquette cible est appelée Je suis confus sur ce que doivent servir de fonctionnalités correctes pour former le modèle étant donné que ce problème regarde une action historique de l'utilisateur pour prédire leur future action P> Données de train P> < Pré> xxx pré> Données de test (voir date ultérieure) p> 1) Je vous demande si il est correct de garder l'identifiant comme une fonctionnalité dans les données de formation ? Je sais que la plupart des problèmes de ML ne conservent pas le champ ID, mais ce problème est un peu différent de ce que le champ ID est utilisé dans l'ensemble de données de test. P> 2) Je planifie Pour déposer le champ Date P> P>
3 Réponses :
On dirait que votre problème peut être vu comme prévision de la série chronologique. Vous avez une saisonnalité dans vos données. Au lieu d'effectuer une régression, vous pouvez essayer des algorithmes tels que Sarima A > p>
Étant donné que je dois prédire l'identifiant donné, date, devrais-je utiliser une série chronologique multivariée au lieu de Sarima
Vous pouvez utiliser une extension de Sarima appelée Sarimax où le «X» représente des régresseurs exogènes. Ensuite, utilisez votre identifiant comme paramètre exogène. Dis-moi si ça marche. La série de temps multivariatif devrait également fonctionner.
Je pense que mon problème est un peu différent, compte tenu des dates des données de train réinitialise au début pour chaque identifiant. Devrais-je construire un modèle pour chacun de l'identifiant?
J'ai posé une question distincte ici: Stackoverflow.com/Questtions/54411958/... Peut-être que vous pouvez avoir un look?
Vos données ont trop moins de fonctionnalités, vous pouvez essayer plusieurs modèles tels que Sarima comme suggéré par Pierre, mais avec uniquement les fonctionnalités que vous pourriez avoir du mal, je vous suggère d'essayer de tracer une matrice de corrélation et de voir s'il y a un co -Relation entre les entrées et les sorties, s'il n'y a pas de modèle ne peut vous aider, s'il existe une co-relation entre les fonctionnalités, seul un modèle sera en mesure d'apprendre cette co-relation et généraliser. P>
Ce lien peut être utile si vous ne savez pas tracer une matrice de co-relation https://seachborn.pydata.org/examples/many_pairwise_corrélations.html p>
Ce lien peut vous aider à donner un sens à la matrice de co-relation si vous n'êtes pas familier avec eux https://machinelearnmastery.com/how -Autilisation-user-corrélation-to-compréhensif-la relation entre-variables / p>
Si vous êtes incapable de comprendre quelque chose des liens, n'hésitez pas à commenter. p>
1) je me demande s'il est correct de garder l'identifiant comme une fonctionnalité de la données d'entraînement? Je sais que la plupart des problèmes ml ne gardent pas le champ ID, mais Ce problème est un peu différent que le même champ d'identification est en train d'être utilisé dans le jeu de données de test. P> blockQuote>
Comme je vois que vous avez deux types de dates pour le même
ID code> (dans les deux ensembles de train et de test). Donc, si ce
ID code> représente quelque chose lié à la cible - gardez-le. Sinon, déposez-le. P>
2) Je prévois de déposer le champ de date p> blockQuote>
Et vous perdrez une année, des mois, un numéro de semaine, un numéro de jour, une marque de jour de vacances aussi possible. P>
En plus de Sarima, je peux vous conseiller d'essayer d'adapter un modèle de régression ici. Parfois, ils travaillent dans des tâches de la série temporelle. P>
Merci! J'ai d'abord essayé le modèle de régression avant la série chronologique, alors j'essaie aussi une série de temps. Et oui, il est logique que je devrais garder l'identifiant et la date alors