11
votes

Comment puis-je trouver uniquement des mots «intéressants» d'un corpus?

Je suis des phrases d'analyse syntaxique. Je veux connaître le contenu pertinent de chaque phrase, défini vaguement comme « mots semi-uniques » par rapport au reste du corps. Quelque chose de semblable à « phrases statistiquement improbable » d'Amazon, qui semblent (souvent) véhiculent le caractère d'un livre à travers des chaînes de mots farfelus.

Mon premier passage a été de commencer à faire une liste de mots communs. Cette assomme les plus faciles comme a , le , de , etc. De toute évidence, il se trouve que cette liste obtient assez longue.

Une idée est de générer cette liste: Faire un histogramme du corpus' fréquences de mots, et élaguer les 10% ou quelque chose de similaire (IE le se produit 700 fois, de < / code> 600 fois, mais micropaiement seulement 50, qui est sous la valeur seuil et donc pertinent).

Une autre algorithim Je viens d'apprendre au sujet de Hacker Nouvelles aujourd'hui est le Tf idf , qui ressemble à cela pourrait être utile.

Quelles autres approches fonctionneraient mieux que mes deux idées?


0 commentaires

4 Réponses :


0
votes

6
votes

Jetez un coup d'œil à Cet article ( niveau de statistiques de mots: trouver Mots-clés des textes littéraires et des séquences symboliques , publiées dans Phys. Rev. e ).

La photo sur la première page avec sa légende explique l'observation cruciale. Dans Don Quichotte , les mots "mais" et "Quichotte" apparaissent avec des fréquences similaires, mais leurs spectres sont assez différents (des occurrences de "Quichotte" sont regroupées pendant que des occurrences de "mais" sont plus espacées) . Par conséquent, "Quichotte" peut être classé comme mot intéressant (mot-clé) tout en "mais" est ignoré.

Cela pourrait ou pourrait ne pas être ce que vous recherchez, mais je suppose que cela ne fera pas de mal de se familiariser avec ce résultat.


1 commentaires

Fonctionne assez bien sur le livre de Darwin, mais sur Joyce's Ulysse, il produit des résultats un peu moins utiles: j'ai dit, dit-toi, elle, elle, fleurir, mon projet, mon projet, moi ... sont les dix premiers mots. Si vous allez à la prochaine quarante, vous obtenez: Mulligan, est, Joe, Buck, il, était-ce que, qui, citoyen, Eglinton, Douce, mon, comme, J, Cissy, O, Tap, Omolloy, Weasy , que, que, avait aussi, d'Alf, conmeie, Gutenberg, Haines, Myles, Martin, Kennedy, Sortie, Son, Vos, Ils, Ned, Gerty, Hes, Lenehan, Edy ... Incidemment, je me rends compte que je n'ai pas fait t Dettez le projet Gutenberg Logorrhée assez bien !!



3
votes

Je pense que ce que Amazon appelle "phrases improbables statistiques" sont des mots improbables en ce qui concerne leur énorme corpus de données. En effet, même si un mot est répété 1000 fois dans un livre donné A, si ce livre est le seul endroit où il apparaît, il s'agit d'une sirop, car la probabilité qu'il apparaisse dans un livre donné est Zilch (car il est spécifique pour réserver a). Vous ne pouvez pas vraiment dupliquer cette mine de données pour comparer les informations de, à moins que vous ne travaillez avec beaucoup de données.

Qu'est-ce que beaucoup de données? Eh bien, si vous analysez des textes littéraires, vous souhaitez télécharger et traiter quelques milliers de livres de Gutenberg. Mais si vous analysez des textes juridiques, vous devrez vous nourrir spécifiquement du contenu des livres juridiques.

Si, comme c'est probablement le cas, vous n'avez pas beaucoup de données en tant que luxe, alors vous devez compter, d'une manière ou d'une autre, sur l'analyse de fréquence. Mais au lieu d'envisager des fréquences relatives (fractions du texte, comme on le considère souvent), envisagez des fréquences absolues.

Par exemple, Hapax Legomenon est également connu dans le domaine d'analyse de réseau comme 1-souris , pourrait présenter un intérêt particulier. Ce sont des mots qui n'apparaissent qu'une seule fois dans un texte donné. Par exemple, dans James Joyce's Ulysse , ces mots n'apparaissent qu'une seule fois: postexilic, corrosif, Romanys, macrocosme, diaconal, compressibilité, Aungier. Ce ne sont pas des phrases improbables statistiques (comme cela seraient «Leopold Bloom») afin qu'ils ne caractérisent pas le livre. Mais ce sont des termes assez rares pour qu'ils n'apparaissent qu'une seule fois dans l'expression de cet écrivain, vous pouvez donc considérer qu'ils caractérisent, d'une certaine manière, son expression. Ce sont des mots qui, contrairement à des mots communs comme "la" couleur "," mauvais ",c. il cherchait expressément à utiliser.

Celles-ci sont donc un artefact intéressant, et la chose est, elles sont assez faciles à extraire (penser O (n) avec mémoire constante), contrairement aux autres indicateurs plus complexes et plus complexes. (Et si vous voulez des éléments qui sont légèrement plus fréquents, vous pouvez passer à 2 souris, ..., 10 souris qui sont similaires faciles à extraire.)


0 commentaires

3
votes

TF-IDF est une façon d'aller. Si vous voulez parler de phrases plutôt que des mots, en plus des excellentes références ci-dessus, voici un schéma simple:

Créer un Chaîne Markov à partir d'un grand échantillon Corpus. En bref, vous construisez une chaîne de Markov en enregistrant la fréquence de chaque N-tuple dans votre texte d'entrée. Par exemple, la phrase "Ceci est un test" avec 3-tuples serait (ceci, a), (est, a, test). Ensuite, vous regroupez chaque N-tuple par les premiers termes N-1, vous permettant de répondre à la question "Compte tenu des mots n-1 précédents, quelle est la probabilité du mot suivant?"

Maintenant, pour chaque phrase du document d'entrée, traverser la chaîne de Markov. Calculez la probabilité de voir la phrase en multipliant toutes les probabilités que vous rencontrez lors de la traversée de la chaîne. Cela vous donne une estimation de la "probabilité" Cette phrase est dans le corpus d'entrée. Vous voudrez peut-être multiplier cette probabilité par la longueur de la phrase, car des phrases plus longues sont moins probables, statistiquement.

Vous avez maintenant associé à chaque phrase de votre entrée une probabilité. Choisissez les phrases les plus probables - ce sont les «intéressants», pour une définition d'intéressante.


1 commentaires

+1 Cela semble intéressant. Pouvez-vous s'il vous plaît me référer le papier?