J'ai un fichier de données avec certaines fonctionnalités de texte, c'est-à-dire une fonctionnalité appelée "travail" avec une certaine occurrence telle que "policier", "avocat", "docteur", etc. Comme dans le code Python suivant:
import pandas as pd dict = {'age' : [19, 35, 47], 'job' : ['policeman', 'lawyer', 'doctor']} df = pd.DataFrame(dict)
3 Réponses :
Vous pouvez utiliser le labelenCoder à faire Ceci: Ceci transformera la variable de votre travail en une représentation numérique " p>
Si vous souhaitez les utiliser comme fonctionnalités de votre prédiction, la réponse du Allen est correcte et que vous utilisez un onehotencoding.
Mais si vous voulez faire ce que vous avez demandé, ce code pourrait être utile p>
C'est la meilleure solution fournie. Depuis que le codeur d'étiquettes de Sklearn colle à l'ordre alphabétique, il est impossible de écraser cela.
Ok super merci. Pourriez-vous cocher la réponse comme correct alors?
Pour répondre à votre question actuelle ("Comment créer une colonne de numérums représentant des catégories, basée sur une colonne de chaînes répétées"):
Vous pouvez créer une nouvelle colonne numérique à vos catégories en créant une liste de la liste des Strings uniques, puis demandant à chaque chaîne de la colonne Quel est son index dans cette liste: p> Bien que si votre objectif soit à une fois à une fois, codez vos catégories pour l'apprentissage de la machine, vous devrait vraiment utiliser OneHotencoder de Scikit-Harnofollow . < / p> p>