0
votes

Comment puis-je charger cet ensemble de données sur Keras ou TF?

Je suis nouveau dans keras et tf . J'ai besoin de charger ce jeu de données: https: //archive.ics. uci.edu/ml/machine-learning-databases/letter-recognition/letter-recognition.data

Mais chaque didacticiel que j'ai vu utilise des méthodes intégrées avec le chargement à partir du jeu de données de mnist. Je suis arrivé à la modification de la lettre (label) à Int (comme A-> 1, B-> 2, C-> 3, etc.) Mais comment diviser cela en 2 ensembles (X-in, Y-Out)?


5 commentaires

Que représentent les colonnes de l'ensemble de données?


archive.ics.uci.edu/ ML / Machine-Learning-Bases de données / ... Catégorie de lettre et 16 caractéristiques numériques. @nuric


Quelle est la variable cible (Y-OUT)? Est-ce la 1ère colonne qui est des lettres?


@heenabawa oui c'est


Avez-vous essayé Train_Test_split () ou tranchant?


3 Réponses :


1
votes

Vous devez analyser le fichier par vous-même.

Pour cela, vous faites quelque chose comme ceci: xxx

essentiellement, vous iTERIE dans le fichier et gardez les entiers comme x valeurs. Pour les valeurs Y, vous prenez d'abord la lettre. Mais le réseau de neurones ne comprendra pas cela, vous devez donc construire un dictionnaire avec une cartographie entière à la lettre. C'est pourquoi nous analysons Y à la fin, afin que nous finissions avec des valeurs de y.

Maintenant, il vous suffit de créer des matrices numpues.


0 commentaires

1
votes

Mais chaque didacticiel que j'ai vu des utilisations intégrées de méthodes. P>

Je recommanderais d'utiliser des pandas si vous n'avez pas essayé avant. p>

  1. Copiez d'abord coller les données et enregistrer sous forme de fichier CSV (exemple.csv). LI>
  2. Chaque fichier CSV nécessite un en-tête, car ce fichier n'a pas par défaut, vous pouvez ajouter manuellement. En insérant Alphabet, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16 Code> en haut du fichier. Remarque: vous devez remplacer les chiffres avec le nom de la fonctionnalité réelle pour plus de lisibilité. P> li>

  3. Importer des pandas comme PD CODE> P> LI>

  4. lire le fichier: p>

    dataframe = pd.read_csv ("exemple.csv") code> p> li>

  5. Depuis, vous avez dit que la première colonne est l'étiquette que vous pouvez déposer cela hors du Dataframe. P>

    y = dataframe ["alphabet"] code> p> li>

  6. colonne restante est l'entrée que vous pouvez récupérer à l'aide des valeurs code> code> qui renvoie une matrice numpue. P>

    x = dataframe.drop ("alphabet", 1) .Values ​​ code> #drop le long de la colonne p> li>

  7. Vous pouvez maintenant diviser l'ensemble de données en utilisant train_test_split code> dans sklearn.model_selection code> ou pouvez utiliser des indices Python. P>

    from keras.utils import to_categorical
    y = to_categorical(y, len(mapping))
    


0 commentaires

1
votes

Pour les petits ensembles de données (comme dans votre cas), je voudrais simplement analyser le fichier et utiliser itérateur. Voici tensorflow exemple pour vos données: xxx


0 commentaires