J'ai divisé le jeu de données en train et test de 80-20 ration respectivement. J'ai prédit et évalué avec le jeu de données de test. Et ma question pose ma question peut-on évaluer et prédire le modèle avec l'ensemble de l'ensemble de données avant que je shauffle tout le jeu de données. pouvons-nous faire cela? Sinon, pourquoi ne devrions-nous pas faire cela? Qu'est-ce que l'acte répréhensible est comme ça? P>
3 Réponses :
Data Snooping est la réponse rapide ce que vous recherchez. En d'autres termes, votre modèle semblerait surperformer sur vos données de test s'il a été formé sur 100% de données. Le modèle deviendrait un modèle surviencieux qui prédirait essentiellement des données connues avec une précision plus élevée, cependant, ne le ferait toutefois pas avec une sorte de données de test invisible. p>
Vous pouvez le faire, mais cela entraînerait un modèle surviennent. Vous pouvez essayer la méthode de validation croisée pliée K à Stead. P>
Si vous utilisez l'ensemble du jeu de données pour la formation, le modèle s'adapte à toutes les variances des données (survêtement). En conséquence, la performance de votre modèle sur des données similaires sera élevée. Cependant, le modèle présentera des performances peu performantes sur des données invisibles avec une distribution différente par rapport à votre jeu de données de formation. Une façon d'empêcher cela est de: a) diviser vos données en jeux de données de formation, de validation et de test (voir la note ci-dessous), b) Appliquer la validation croisée K-Fold sur la formation et les divisions de validation, c) Vérifiez les performances de votre Modèles de l'étape B sur la troisième scission (jeu de données de test). Remarque: il n'y a pas de consensus sur la nommage des scissions. Certaines sources nomment les essais de validation de la formation, tandis que d'autres utilisent une validation de test de formation. p>