Je suis nouveau dans Mais chaque didacticiel que j'ai vu utilise des méthodes intégrées avec le chargement à partir du jeu de données de mnist.
Je suis arrivé à la modification de la lettre (label) à keras code> et
tf code>. J'ai besoin de charger ce jeu de données:
https: //archive.ics. uci.edu/ml/machine-learning-databases/letter-recognition/letter-recognition.data P>
Int (comme A-> 1, B-> 2, C-> 3, etc.) code>
Mais comment diviser cela en 2 ensembles (X-in, Y-Out)? P>
3 Réponses :
Vous devez analyser le fichier par vous-même.
Pour cela, vous faites quelque chose comme ceci: p> essentiellement, vous iTERIE dans le fichier et gardez les entiers comme x valeurs. Pour les valeurs Y, vous prenez d'abord la lettre. Mais le réseau de neurones ne comprendra pas cela, vous devez donc construire un dictionnaire avec une cartographie entière à la lettre. C'est pourquoi nous analysons Y à la fin, afin que nous finissions avec des valeurs de y. p> Maintenant, il vous suffit de créer des matrices numpues. P> p>
Mais chaque didacticiel que j'ai vu des utilisations intégrées de méthodes. P>
Je recommanderais d'utiliser des pandas si vous n'avez pas essayé avant. p>
- Copiez d'abord coller les données et enregistrer sous forme de fichier CSV (exemple.csv). LI>
Chaque fichier CSV nécessite un en-tête, car ce fichier n'a pas par défaut, vous pouvez ajouter manuellement. En insérant
Alphabet, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16 Code> en haut du fichier. Remarque: vous devez remplacer les chiffres avec le nom de la fonctionnalité réelle pour plus de lisibilité. P> li>
Importer des pandas comme PD CODE> P> LI>
lire le fichier: p>
dataframe = pd.read_csv ("exemple.csv") code> p> li>
Depuis, vous avez dit que la première colonne est l'étiquette que vous pouvez déposer cela hors du Dataframe. P>
y = dataframe ["alphabet"] code> p> li>
colonne restante est l'entrée que vous pouvez récupérer à l'aide des valeurs code> code> qui renvoie une matrice numpue. P>
x = dataframe.drop ("alphabet", 1) .Values code> #drop le long de la colonne p> li>
Vous pouvez maintenant diviser l'ensemble de données en utilisant
train_test_split code> dans
sklearn.model_selection code> ou pouvez utiliser des indices Python. P>
from keras.utils import to_categorical y = to_categorical(y, len(mapping))
Pour les petits ensembles de données (comme dans votre cas), je voudrais simplement analyser le fichier et utiliser itérateur. Voici tensorflow code> exemple pour vos données:
Que représentent les colonnes de l'ensemble de données?
archive.ics.uci.edu/ ML / Machine-Learning-Bases de données / ... Catégorie de lettre et 16 caractéristiques numériques. @nuric
Quelle est la variable cible (Y-OUT)? Est-ce la 1ère colonne qui est des lettres?
@heenabawa oui c'est
Avez-vous essayé Train_Test_split () ou tranchant?