0
votes

Manque d'idées de vectorisation de la fonction de texte (genre de musique)

Je suis en train de créer un modèle prédictif de la popularité de la piste. Une des caractéristiques que j'ai est un genre de musique. La variable contient de nombreuses valeurs uniques, mais similaires, par exemple: «pays contemporain», «pays pop», «piège», «piège à louer». Je cherche une façon de représenter cette colonne numériquement .

J'aimerais créer 1D Intectordings pour ma variable de genre de musique basée sur des fonctionnalités audio des pistes appartenant à un genre particulier. Est-ce réellement possible?

Je serais super reconnaissant pour tout type d'aide au problème.


0 commentaires

3 Réponses :


1
votes

Aussi, ce n'est peut-être pas l'approche optimale, vous pouvez utiliser un text.preprocessing à partir de keras . cela fonctionne comme ce qui suit: xxx

La sortie ressemble à ceci: xxx

Vous aurez beaucoup de fonctionnalités, mais même lorsque vous Utilisez l'algorithme ML 'normal' ML, ils reconnaîtront l'inauguration de la fonctionnalité: lo-fi par exemple.

mais la pièce pour la cartographier sur General Genres avant peut être très compliquée .


0 commentaires

2
votes

Traiter les genres en tant que jetons et entraîner un vecteur de vecteur par genre, devrait être possible.

Pour la formation, vous auriez besoin de "textes" qui utilisent les différents genres ensemble - celles-ci pourraient être les multiples genres utilisateurs ont affecté une seule piste ou les séquences de genres dans un historique d'écoute de certains utilisateurs, ou les séquences de genres dans les travaux de certains artistes, etc.

Et je soupçonne que cette approche pourrait fonctionner assez bien, placer avec succès des genres dans un espace de coordonnées où leurs distances / directions relatives se ressemblent à des jugements humains. Ces "embarcations denses" pourraient ensuite être utilisées comme des entrées dans d'autres techniques ML en aval.

Certaines pensées qui peuvent aider:

  • Pour une bonne incorporation dense, vous voudrez que la dimensionnalité spatiale soit beaucoup plus petite que le nombre de jetons uniques. C'est-à-dire beaucoup plus petit dans les dimensions numériques de nombre de points de vue que le codage "un à chaud" serait. Donc, vous avez probablement ne voulez pas veulent effondrer des genres associés (comme Piège Low-Fi dans Piège ) - Ce serait jeté potentiellement utile Les subtilités des données, même si elles sont bruyantes, lorsque le point de la formation * 2Vec est de pouvoir apprendre / modéliser de telles subtilités (tant qu'il existe suffisamment d'exemples d'utilisation contextuelle).

  • Lors de la formation de données qui ne sont pas vraiment une langue naturelle et de manière prédictive spécifique, il devient plus probable que les paramètres de formation loin des défauts habituels peuvent être optimaux - une fois que vous avez un moyen répétable de marquer différents modèles à vos besoins. (Par exemple, il existe un paramètre d'exponentiation utilisé dans l'échantillonnage négatif qui a été fixé à 0,75 dans la plupart des implémentations Word2vec - mais un Le papier récent suggère que des valeurs très différentes peuvent être sensiblement meilleures dans les applications de recommandation. Il a donc été fait spécifié dans les versions récentes de la bibliothèque Python Gensim .)


0 commentaires

2
votes

Lors de la conversion de données catégoriques en données numériques, nous avons deux options:

  1. un vecteur à un chaud
  2. Entité Incorceding

    Un vecteur à un chaud est utilisé lorsque le nombre de colonnes uniques est faible (peu de centaines). Les embarcations d'entité sont utilisées si nous avons un grand nombre de caractéristiques uniques (des milliers). Les embarquements Carte Carte fonctionnent dans un vecteur 1D et donnent une idée de la manière dont les fonctionnalités de proximité (ou de loin) sont à proximité. Dans votre cas, le pays et le pays-pop seront plus rapprochés que le pays et le piège. On dirait que vous avez un grand nombre de fonctionnalités uniques pour "Genre". Par conséquent, je choisirais une technique d'incorporation.

    Comme Gojomo a souligné dans sa réponse, vous aurez besoin d'un corpus pour une formation qui utilise les différents genres ensemble et développera un système de notation. Après avoir entraîné votre modèle, vous pouvez utiliser la sortie de votre formation plus en aval avec d'autres techniques ML.


2 commentaires

J'aime l'idée de former 1d embardes. J'ai hâte d'essayer de l'essayer quand je retourne à la maison. Pensez-vous qu'il serait possible de créer des embarcations basées sur des fonctionnalités audio (telles que l'instrumentalité, l'acoustiche, la discussion, etc.) plutôt que du texte corpus?


Cela devrait être possible si les caractéristiques audio ont une corrélation suffisamment élevée avec le genre. Intuitivement, ils devraient, mais vous devriez vérifier que la puissance prédictive des caractéristiques audio est suffisamment élevée pour dire quel genre vous regardez.