0
votes

Meilleur moyen de former un modèle de régression donnée des données de séries chronologiques

données données de la semaine 1 et 2 semaines, j'essaie de former un modèle pour prédire les données de la semaine 3.

L'étiquette cible est appelée cible .

Je suis confus sur ce que doivent servir de fonctionnalités correctes pour former le modèle étant donné que ce problème regarde une action historique de l'utilisateur pour prédire leur future action

Données de train < Pré> xxx

Données de test (voir date ultérieure) xxx

1) Je vous demande si il est correct de garder l'identifiant comme une fonctionnalité dans les données de formation ? Je sais que la plupart des problèmes de ML ne conservent pas le champ ID, mais ce problème est un peu différent de ce que le champ ID est utilisé dans l'ensemble de données de test.

2) Je planifie Pour déposer le champ Date

machine-learning regression data-science feature-selection

0 commentaires

3 Réponses :

1
votes

On dirait que votre problème peut être vu comme prévision de la série chronologique. Vous avez une saisonnalité dans vos données. Au lieu d'effectuer une régression, vous pouvez essayer des algorithmes tels que Sarima

4 commentaires

Étant donné que je dois prédire l'identifiant donné, date, devrais-je utiliser une série chronologique multivariée au lieu de Sarima

Vous pouvez utiliser une extension de Sarima appelée Sarimax où le «X» représente des régresseurs exogènes. Ensuite, utilisez votre identifiant comme paramètre exogène. Dis-moi si ça marche. La série de temps multivariatif devrait également fonctionner.

Je pense que mon problème est un peu différent, compte tenu des dates des données de train réinitialise au début pour chaque identifiant. Devrais-je construire un modèle pour chacun de l'identifiant?

J'ai posé une question distincte ici: Stackoverflow.com/Questtions/54411958/... Peut-être que vous pouvez avoir un look?

0
votes

Vos données ont trop moins de fonctionnalités, vous pouvez essayer plusieurs modèles tels que Sarima comme suggéré par Pierre, mais avec uniquement les fonctionnalités que vous pourriez avoir du mal, je vous suggère d'essayer de tracer une matrice de corrélation et de voir s'il y a un co -Relation entre les entrées et les sorties, s'il n'y a pas de modèle ne peut vous aider, s'il existe une co-relation entre les fonctionnalités, seul un modèle sera en mesure d'apprendre cette co-relation et généraliser.
Ce lien peut être utile si vous ne savez pas tracer une matrice de co-relation https://seachborn.pydata.org/examples/many_pairwise_corrélations.html
Ce lien peut vous aider à donner un sens à la matrice de co-relation si vous n'êtes pas familier avec eux https://machinelearnmastery.com/how -Autilisation-user-corrélation-to-compréhensif-la relation entre-variables /
Si vous êtes incapable de comprendre quelque chose des liens, n'hésitez pas à commenter.

0 commentaires

1
votes

1) je me demande s'il est correct de garder l'identifiant comme une fonctionnalité de la données d'entraînement? Je sais que la plupart des problèmes ml ne gardent pas le champ ID, mais Ce problème est un peu différent que le même champ d'identification est en train d'être utilisé dans le jeu de données de test.
Comme je vois que vous avez deux types de dates pour le même ID (dans les deux ensembles de train et de test). Donc, si ce ID représente quelque chose lié à la cible - gardez-le. Sinon, déposez-le.
2) Je prévois de déposer le champ de date Et vous perdrez une année, des mois, un numéro de semaine, un numéro de jour, une marque de jour de vacances aussi possible. En plus de Sarima, je peux vous conseiller d'essayer d'adapter un modèle de régression ici. Parfois, ils travaillent dans des tâches de la série temporelle.
1 commentaires Merci! J'ai d'abord essayé le modèle de régression avant la série chronologique, alors j'essaie aussi une série de temps. Et oui, il est logique que je devrais garder l'identifiant et la date alors

Articles qui pourrait vous intéresser : Encodage à chaud agrégé Erreur TensorflowJS TFJS: le type de dict Plotly: Comment créer une matrice de confusion annotée à l'aide d'une carte thermique? Score bleu en python à partir de zéro