Je cherche un corpus de texte pour exécuter des recherches de données de style FullText Style à l'autre. Soit quelque chose que je peux télécharger ou un système qui le génère. Quelque chose d'un peu plus aléatoire serait mieux par exemple. 1 000 000 articles Wikipedia dans un format facile à insérer dans une base de données de 2 colonnes (ID, texte). P>
Des idées ou des suggestions? P>
3 Réponses :
Pourquoi ne pas utiliser un Wikipedia Dump ? P>
Principalement parce que c'est non compressé, il y a beaucoup de GB et est dans la langue de balisage - juste à la recherche de texte.
Projet Gutenberg compte 32000 livres disponibles. P>
EDIT: strong> À partir de maintenant (17.06.16) Il y a 52 284 livres électroniques gratuits pour télécharger en tant que fichier texte brut dans UTF-8 STROR> dans une grande variété de sujets (de la science à la religion). Également dans les formats EPUB, Kindle ou HTML. Vérifiez ici Projet Gutenberg P>
Où l'on pourrait accéder aux boos en format de fichier TXT?
Je vais y jeter là-bas depuis que je le connais - Prosper.com fait que leurs listes de prêt membres soient disponibles pour analyse via une exportation XML . L'exportation aurait environ 50 000 demandes de prêt avec des descriptions et plus de 1 000 000 profils membres (bien que beaucoup d'entre eux soient vides). P>
Merci, cela pourrait être utile. Encore un peu de traitement pour le faire fonctionner - mais cela lui donnera une course.
Essayez pizzachili.dcc.uchile.cl/texts.html