7
votes

À la recherche de jeu de données pour tester les recherches de style FullText sur

Je cherche un corpus de texte pour exécuter des recherches de données de style FullText Style à l'autre. Soit quelque chose que je peux télécharger ou un système qui le génère. Quelque chose d'un peu plus aléatoire serait mieux par exemple. 1 000 000 articles Wikipedia dans un format facile à insérer dans une base de données de 2 colonnes (ID, texte).

Des idées ou des suggestions?


3 Réponses :


2
votes

Pourquoi ne pas utiliser un Wikipedia Dump ?


1 commentaires

Principalement parce que c'est non compressé, il y a beaucoup de GB et est dans la langue de balisage - juste à la recherche de texte.



5
votes

Projet Gutenberg compte 32000 livres disponibles.

EDIT: À partir de maintenant (17.06.16) Il y a 52 284 livres électroniques gratuits pour télécharger en tant que fichier texte brut dans UTF-8 dans une grande variété de sujets (de la science à la religion). Également dans les formats EPUB, Kindle ou HTML. Vérifiez ici Projet Gutenberg


1 commentaires

Où l'on pourrait accéder aux boos en format de fichier TXT?



1
votes

Je vais y jeter là-bas depuis que je le connais - Prosper.com fait que leurs listes de prêt membres soient disponibles pour analyse via une exportation XML . L'exportation aurait environ 50 000 demandes de prêt avec des descriptions et plus de 1 000 000 profils membres (bien que beaucoup d'entre eux soient vides).


1 commentaires

Merci, cela pourrait être utile. Encore un peu de traitement pour le faire fonctionner - mais cela lui donnera une course.