11
votes

Qu'est-ce que le paradoxe de Simpson implique dans AB testant?

Je fais des tests A / B et je suis confronté au paradoxe de Simpson dans mes résultats (Jour Vs mois contre la durée totale du test).

  1. Cela signifie-t-il que mon test A / B n'est pas correct / représentatif? (Un facteur externe a eu une incidence sur les tests?)
  2. Si c'est un signe de problème, quelles sont les instructions à suivre?

    Merci pour votre grande aide.

    En plus de lecture: http://fr.wikipedia.org/wiki/simpson%27s_paradox < / a>


1 commentaires

Question similaire ici, pouvez-vous s'il vous plaît fournir des idées: statists.stackexchange.com/questions/226994/...


3 Réponses :


1
votes

Le paradoxe de Simpson ne se produit que lorsque vos tailles de groupe sont différentes. En fait, les résultats ginaux sont une moyenne pondérée pour les résultats de chaque groupe (et sur cette pondération, le paradoxe peut venir).

Ce n'est pas réellement causé par des facteurs externes ou des trucs. C'est simplement parce qu'un groupe est beaucoup plus important (car a plus d'éléments du groupe).

Si vous fournissez d'autres informations, nous pourrions probablement aider à mieux améliorer.


0 commentaires

10
votes

Il est un peu difficile de dire sans voir les données exactes et les dimensions que vous testez, mais vous souhaitez généralement prendre des décisions en fonction des données non liées. Cet article de Microsoft donne un exemple assez clair de Simpson's Paradox dans des tests logiciels .

Pouvez-vous fournir un exemple propre de vos données combinées et non montées et un bref résumé du test?


1 commentaires

Je n'aime pas les articles qui commencent par "les paradoxes sont amusants". ou est-ce que je ...?



4
votes

Si A est clairement, nettement mieux dans les tests A / B individuels, alors que les scores B mieux dans l'ensemble, la principale conséquence est que vous ne pouvez pas cumuler ces ensembles de données de cette façon . A est meilleur.

Si les tests ont obtenu les mêmes résultats tous les jours, vous n'obtiendrez pas ce résultat clair, même avec des tailles d'échantillonnage variables par jour. Je pense donc que cela implique en outre que quelque chose a changé . Cela pourrait être n'importe quoi, cependant. Peut-être ce que vous avez testé chaque jour a changé (peut-être d'une manière très subtile, comme la vitesse du serveur). Ou peut-être que les personnes que vous testez ont changé (peut-être démographiquement, peut-être juste en termes d'humeur). Cela ne signifie pas que vos tests sont mauvais ou invalides. Cela signifie simplement que vous mesurez quelque chose qui bouge, ce qui rend les choses difficiles.

Et je pourrais être mal calculé ou mal comprendre la situation, mais je pense il est également vrai que vous n'avez pas testé A et B le même nombre de fois . C'est-à-dire que si lundi vous avez testé 50 fois et b 50 fois 50 fois, et le mardi, vous avez testé un 600 fois et B 600 fois, etc., et un peu exceptionnel par jour, puis je ne vois pas comment vous pourriez obtenir Un résultat global où B Beats A. Si cela est vrai de votre configuration de test, cela semble certainement être quelque chose que vous pouviez résoudre pour rendre vos données plus faciles à raisonner.


0 commentaires