8
votes

Où obtenir une liste de presque tous les mots en anglais?

Je veux obtenir un texte aléatoire généré.

J'ai essayé d'écrire un programme de base Java xxx

et le résultat est quelque chose comme:

tafawc flnqhabhv mqceuoqy rttzckzqa byxzod zbxweclvia wegmxvuoqez IJWAUHMZW JOXM ZVPHBS OGPJYIP QXOYMXKXV YRFOIFIG FBHECPH IZXCYFMA Xarzse Srwic JGI FKBCDCYDPZ QPDVSZ RQHJIEQNO FMELFMTGQE QOZENJLXTG VFXD lkmkrksgw ytuaduduknsl a laissé Ao bm lsfjednsa qouinii yrwzerdck yb kszttly zmwflwevyix kdg qpnkzuijva ssau yc wxews drqsdwbc glxb gokunixldec lznuwdvksx zkzhsiruxc SQPLHV FZIXYWKFAFT FQDKUNFGDDN BCQP OIWWOBO emhk kv qhm xkjp kacbmcd ojh wzvukx Oztbexkf Lylyv KDSPQPA ZBYKJ LNPRTLXP AF BNE RYAMUMCG OYHLDWDLQ BQYFXRSZUF wyrijnr ysnefsz lhhazrdwsev tll IKIBSNPQWG NTZLGC AAHFSDEUPS Rushos IHQZYUCD MJORSCCHSZM TUPPZ HXI SSUMREVG

Il serait utile que le texte soit au moins lisible au lieu de cela.

Je pense utiliser des mots anglais et choisir au hasard parmi eux pour faire des phrases. Où puis-je obtenir une grande liste de mots en langue anglaise?


1 commentaires

Avez-vous besoin d'inonder des filtres anti-spam ou de générer un peu de texte pour remplir l'espace?


11 Réponses :


1
votes

a gros Liste J'ai trouvé sur le FreeBSD CVS


0 commentaires

2
votes

Le Le projet WordList possède des listes. Je pense qu'il est difficile de trouver une liste complète, les langues naturelles ne fonctionnent pas comme ça.


0 commentaires

1
votes

Cuvplus est une bonne machine Dictionnaire lisible (le lien va directement à la page de téléchargement). Ceci est "à des fins de recherche uniquement" (licence non commerciale). Il comprend la classification dans les noms, les verbes, etc., il peut donc être plus utile pour générer des phrases aléatoires que simplement une liste de mots.


0 commentaires

6
votes

La norme d'or pour le traitement des langues naturelles est WordNet à http://wordet.princeton.edu/ . Ceci dispose d'un groupe d'utilisateurs actif, contient une sémantique et une syntaxe associée à des mots et des interfaces avec d'autres outils NLP. Si vous envisagez de calculer avec les mots, vous devez absolument jeter un coup d'œil.

Cependant, la sélection de mots au hasard ne génère pas de phrase utile et que je soupçonne que vous serez déçu des résultats. Jetez un coup d'œil aux sautilations telles que OpinNLP où de nombreux outils comprennent une partie de la parole (POS) dont vous aurez certainement besoin.

Même lorsque vous avez des phrases pouvant avoir une syntaxe valide, vous devrez lire le travail de Chomsky et d'autres. Ses "idées vertes incolores dorment furieusement" http://en.wikipedia.org/wiki/colorless_green_ideas_sleep_furieusement illustre le problème.


0 commentaires

0
votes

Vous voulez chercher "Lorem Ipsum". Il y a une sorte de bibliothèque pour le générer en Java.


0 commentaires

4
votes

Je suggérerais d'utiliser un générateur de Lorem Ipsum. Pour Java, il y a Ceci sur . La version en ligne est disponible ici .


0 commentaires

0
votes

Les wordlists Scrabble peuvent valoir le détour. Il y a deux variantes: SOWPODS (partout sauf USA et Canada) et TWL (pour les États-Unis et le Canada). Les deux listes de mots sont facilement téléchargeables à partir de différents sites.

Cependant, pour ce dont vous avez besoin, vous voudrez peut-être envisager également d'utiliser Lorem Ipsum (Aka 'Lipsum »). Un générateur LIPSUM populaire est ici , bien qu'il y ait beaucoup d'autres.


0 commentaires

5
votes

Vérification de Lorem Ipsum sur site http://www.lipsum.com/ pour générer "Void Texte "

Il y a beaucoup de générateurs sur net http://loremipsum.sourceforge.net/

Texte de référence: Lorem Ipsum Dolor Sit Amet, Consectetur Adipiscing Elit. SED CONSELETUR ViveRRA FRINGILLA. Donec à Lectus à Turpis Bibendum Placerat. Vivamus non nibh mauris. Nulla Metus Metus, SollicicitDIn NEC EGESAS ID, fermentum à NISL. Pellenteque à Nisl Est. Dans NEC SEM Tellus, AC Impordiet Lectus. Tortue pellente Tortue Turpis, Sagittis Vel Facilisis Trichis, Cursus à Tortuner. Mauris Nonque Magna, Vel Dignissim Sem. Suspendisse interdum diam Tempus Dui Mattis Mattistie. Donec à Mauris Urna, à Villutate Ipsum. Sed Sodales Venenatis Quam Non TinCidunt.


0 commentaires


1
votes

Si vous êtes sur un PC Linux, essayez / USR / Share / dict


0 commentaires

0
votes

Lorsque je l'ai fait en 12e année, en 1972, j'ai fait une liste de toutes les deuxièmes lettres possibles en anglais. En d'autres termes, un vecteur de 26 cordes. La première chaîne a été toutes les lettres possibles qui pourraient suivre une, la seconde était toutes les lettres possibles qui pourraient suivre B, etc.

J'ai fait les listes juste en essayant de penser à un mot avec chaque séquence de deux lettres possible, et s'il était trop difficile de penser à un, je ne l'ai pas inclus. Par conséquent, j'ai fini par toutes les séquences communes de deux lettres en anglais.

Je me souviens que le texte généré était prononcable et qu'il y avait souvent de vrais mots, ou des mots presque réels dedans.

J'ai été écrit sur OCR Mark Sense Cartes de base pour le Minicomputeur HP 2100A avec 8K de mémoire centrale.

J'ai depuis appris que vous pouvez généralement identifier une langue en examinant la fréquence des triplés de lettre, je soupçonne donc que si vous faites cela à un niveau de plus, vous vous retrouverez avec beaucoup de mots plus réels, et beaucoup plus grande ressemblance d'étranglement à une forme d'anglais.


0 commentaires