7
votes

À la recherche de jeu de données pour tester les recherches de style FullText sur

Je cherche un corpus de texte pour exécuter des recherches de données de style FullText Style à l'autre. Soit quelque chose que je peux télécharger ou un système qui le génère. Quelque chose d'un peu plus aléatoire serait mieux par exemple. 1 000 000 articles Wikipedia dans un format facile à insérer dans une base de données de 2 colonnes (ID, texte).

Des idées ou des suggestions?

mysql database core-data corpus dataset

1 commentaires

Essayez pizzachili.dcc.uchile.cl/texts.html

3 Réponses :

2
votes

Pourquoi ne pas utiliser un Wikipedia Dump ?

1 commentaires

Principalement parce que c'est non compressé, il y a beaucoup de GB et est dans la langue de balisage - juste à la recherche de texte.

5
votes

Projet Gutenberg compte 32000 livres disponibles.

EDIT: À partir de maintenant (17.06.16) Il y a 52 284 livres électroniques gratuits pour télécharger en tant que fichier texte brut dans UTF-8 dans une grande variété de sujets (de la science à la religion). Également dans les formats EPUB, Kindle ou HTML. Vérifiez ici Projet Gutenberg

1 commentaires

Où l'on pourrait accéder aux boos en format de fichier TXT?

1
votes

Je vais y jeter là-bas depuis que je le connais - Prosper.com fait que leurs listes de prêt membres soient disponibles pour analyse via une exportation XML . L'exportation aurait environ 50 000 demandes de prêt avec des descriptions et plus de 1 000 000 profils membres (bien que beaucoup d'entre eux soient vides).

1 commentaires

Merci, cela pourrait être utile. Encore un peu de traitement pour le faire fonctionner - mais cela lui donnera une course.

Articles qui pourrait vous intéresser :
phpMyAdmin - Erreur paramètre de format incorrect
Système d'exploitation non pris en charge pour MySQL Workbench - Windows 7
Problème de jointure sql, impossible de récupérer les enregistrements de la table a qui correspondent à une condition de la table b et les enregistrements restants de la table a
Laravel UUID comme clé primaire et ID comme clé étrangère