J'ai un ensemble de données avec le problème suivant. Parfois, un capteur de température renverrait des lectures en double exactement à la même minute, où parfois 1 sur 2 des doublons est «raisonnable» et l'autre est légèrement éteint. Par exemple:
TEMP TIME 1 24.5 4/1/18 2:00 2 24.7 4/1/18 2:00 3 24.6 4/1/18 2:05 4 28.3 4/1/18 2:05 5 24.3 4/1/18 2:10 6 24.5 4/1/18 2:10 7 26.5 4/1/18 2:15 8 24.4 4/1/18 2:15 9 24.7 4/1/18 2:20 10 22.0 4/1/18 2:20
Les lignes 5, 7 et 10 sont des lectures qui doivent être supprimées car elles sont trop élevées ou trop basses (cela n'a pas de sens que dans les 5 minutes, elles augmentent et diminuent davantage qu'un diplôme dans un environnement relativement stable).
L'objectif à la fin de cet ensemble de données est de «faire la moyenne» des valeurs similaires (comme dans les lignes 1 et 2) et de supprimer simplement les lignes trop extrêmes (comme les lignes 5 et 7) l'ensemble de données entièrement.
Actuellement, mon idée de formuler ceci est de regarder une ligne précédemment obtenue, et si l'un des 2 doublons est de +/- 0,5 degré, de marquer dans une 3e colonne avec TRUE afin que je puisse tout filtrer les valeurs TRUE à la fin. Je ne suis pas sûr de savoir comment communiquer dans l'instruction if que je recherche un + OU - 0,5 d'un numéro précédent. Quelqu'un le sait-il?
3 Réponses :
Voici un exemple de feuille Google qui fait ce que vous voulez: https://docs.heogleets.com/spreads 1Va9RjSeulOfVTd-0b4EM4azbUkYUb22jXNc_EcafUO8 / edit? Usp = partage
Ce que j'ai fait:
L'utilisation de la valeur absolue est ce qui fournit "+ OU -" que vous recherchiez. Cela signifie que si la distance entre deux nombres est trop grande, n'incluez pas le terme.
Alors, une solution simple m'est venue à l'esprit. Suivez les étapes ci-dessous:
Ou si vous ne souhaitez considérer que le même décalage horaire, procédez comme suit:
Valeur absolue de la différence supérieure à la limite.
ABS (A - B)> limite