0
votes

Comment gérer des chaînes dans un dataframe de panda?

J'ai un fichier de données avec certaines fonctionnalités de texte, c'est-à-dire une fonctionnalité appelée "travail" avec une certaine occurrence telle que "policier", "avocat", "docteur", etc. Comme dans le code Python suivant:

    import pandas as pd
    dict = {'age' : [19, 35, 47], 'job' : ['policeman', 'lawyer', 'doctor']}
    df = pd.DataFrame(dict)


0 commentaires

3 Réponses :


0
votes

Vous pouvez utiliser le labelenCoder à faire Ceci: xxx

Ceci transformera la variable de votre travail en une représentation numérique " xxx


0 commentaires

0
votes

Si vous souhaitez les utiliser comme fonctionnalités de votre prédiction, la réponse du Allen est correcte et que vous utilisez un onehotencoding.

Mais si vous voulez faire ce que vous avez demandé, ce code pourrait être utile xxx


2 commentaires

C'est la meilleure solution fournie. Depuis que le codeur d'étiquettes de Sklearn colle à l'ordre alphabétique, il est impossible de écraser cela.


Ok super merci. Pourriez-vous cocher la réponse comme correct alors?



0
votes

Pour répondre à votre question actuelle ("Comment créer une colonne de numérums représentant des catégories, basée sur une colonne de chaînes répétées"):

Vous pouvez créer une nouvelle colonne numérique à vos catégories en créant une liste de la liste des Strings uniques, puis demandant à chaque chaîne de la colonne Quel est son index dans cette liste: xxx

Bien que si votre objectif soit à une fois à une fois, codez vos catégories pour l'apprentissage de la machine, vous devrait vraiment utiliser OneHotencoder de Scikit-Harnofollow . < / p>


0 commentaires