Je peux trouver l'explication technique de l'extraction de données dans un livre ou sur Wikipedia, mais je me demande quel type de développement implique-t-il exactement? Est-ce plus sur l'utilisation d'outils ou plus sur des outils d'écriture? Est-ce vraiment très différent des autres domaines quand il s'agit de R & D? P>
7 Réponses :
Data Mining Comme je le dis, trouvez des modèles ou des tendances de données données. Une perspective de développeur pourrait être dans des applications telles que l'anti-blanchiment d'argent ... où étant donné un modèle, vous rechercherez des données pour ce modèle donné. Une autre utilisation est dans les logiciels de projection ... où vous projetez un résultat ou un résultat à l'avenir contre une heuristique en étudiant en reconnaissant la tendance actuelle à partir de données. P>
Les mines de données consistent à rechercher de grandes quantités de données pour les modèles cachés. WEB 2.0 Exemple: News Corp utilise son site myspace.com comme une grande mine de données pour déterminer les films et les produits à promouvoir. Ils écrivent des logiciels pour identifier les tendances des données que les utilisateurs publient sur le site. News Corp est-ce pour recueillir des informations utiles pour les campagnes publicitaires et les prévisions de marché. Il est différent des autres domaines de la R & D dans celui d'un point de vue du donneur de données son passif. Plutôt que de sortir dans la rue et de demander aux gens en personne quels films ils sont susceptibles de voir cet été et d'autres questions de ce type, les outils d'extraction de données trier ces éléments en analysant volontairement des données par les utilisateurs. P>
Wikipedia a en fait un très bon article sur celui-ci: - http://en.wikipedia.org/wiki/data_mining P>
Dans mon expérience (je suis un ancien mineur de données :-)), il s'agit d'un mélange d'outils et d'outils d'écriture. Beaucoup de temps, les outils dont vous avez besoin pour analyser le jeu de données particulier n'existent pas, vous devez donc les écrire vous-même. Il peut être très intéressant, mais vous avez souvent besoin d'une approche très différente du type de programmation que je fais maintenant (sans fil embarqué), par exemple. P>
Je pense que c'est plus sur l'utilisation des outils d'étagère plutôt que de développer votre propre. Un exemple académique de ce type d'outils pourrait être Weka . Bien sûr, vous devez toujours savoir quels algorithmes utilisent, comment préprocéder des données (très importantes de cette partie), etc. p>
en R & D Je n'ai pas beaucoup d'idée, mais cela devrait être comme presque tout: mathématiques, statistiques, plus de maths ... p>
Je ne suis pas d'accord. Il s'agit beaucoup des algorithmes d'implémentation et de réglage de votre cas d'utilisation particulière, car les solutions d'étagère ne parviennent pas à tout couvrir et ne sont que bonnes pour le prototypage.
sur le niveau de développement, l'exploitation minière des données n'est qu'une autre application de base de données, mais avec une énorme quantité de données. p>
L'exploitation minière elle-même est faite en exécutant des requêtes spécifiques sur la base de données. C'est dans la création des requêtes où le travail important est fait. Bien entendu, ils dépendent du modèle de données et des hypothèses, quel type de tendances que le client attend de trouver. Par conséquent, le réglage précis des requêtes ne peut généralement pas être fait dans le développement, mais une fois que le système est en direct et que vous avez des données en direct. Ensuite, l'utilisateur peut tester ses hypothèses et adapter les requêtes pour lui montrer les tendances qu'il recherchent. P>
Donc, d'un point de vue de dev, l'entretien des données est sur p>
Gestion de grands ensembles de données dans votre client (une requête peut renvoyer 100 000 rangées de données) P> li>
fournir à l'utilisateur (qui peut ne rien savoir sur des bases de données SQL ou relationnelles en général) avec un moyen efficace de modifier ses requêtes et d'afficher les résultats. P> li> ol>
+1 C'est ce que je fais réellement et que je n'aurais pas pu dire que c'était l'exploitation minière des données. Bonne explication! Merci!
La clustering, la classification, la détection d'anomalie, la mesure de la similarité, etc. ne sont pas faits en "interrogant" les données et "adapter" ces requêtes. Je ne suis pas d'accord.
@Colithium: par lequel d'autres moyens sont i> ils ont fait, alors? Comme indiqué dans ma réponse à la réponse de Ybakos, ma réponse manque de référence aux méthodes d'analyse de données, vraies. Mais je ne vois pas comment la première étape de l'exploitation minière de données peut être autre chose que d'accéder aux données, qui se fait généralement par les requêtes. Et c'est là que je vois des difficultés techniques potentielles que le développeur d'une application DM devrait garder à l'esprit.
Assurez-vous d'être utilisé, je suis d'accord avec vous. Mais ce n'est pas l'essence de l'exploitation minière des données. C'est comme cartographier toutes les réponses à chaque réponse. Vous devez accéder à la RAM pour résoudre votre problème ». Je n'essaie pas d'être une glib; L'exploitation minière des données consiste à développer et / ou à choisir des techniques pour identifier les modèles de votre vaste ensemble de données. Il ne s'agit pas d'interrogé pour des statistiques sommaires ou des jointures intéressantes.
Les mines de données sont le processus de découverte de modèles intéressants en grandes quantités de données. Il est Comprendre DM du point de vue d'un développeur, vous devriez lire la programmation du livre intelligence collective de Toby Segaran. P>
Je ne peux pas dire que je suis d'accord avec vous - comment découvririez-vous un motif dans vos données sans interroger en premier? Interrogation est la première étape, c'est pourquoi c'est la première chose à laquelle un développeur doit penser. J'admets que j'ai complètement oublié de mentionner toute analyse de données - les statistiques sont certainement indispensables pour toute application minière de données, ainsi que la représentation visuelle des grands ensembles de données. Mais Effectuer B> Une analyse est effectuée par un mineur de données, pas le développeur. L'OP a posé des questions sur les mines de données du POV de Dev's, c'est ce que j'ai essayé de répondre.
"Comment découvririez-vous un motif dans vos données sans interroger en premier?" tu demandes. Vous découvrez des modèles de vos données par la mise en œuvre programmatique et non par la pêche avec les requêtes. C'est tout le point - obtenir la machine pour détecter les modèles dans les données.
Et afin de détecter le modèle de manière programmatique, vous devez d'abord examiner les données. Donc, à la fin, cela revient aux requêtes, peu importe si cela fait l'interrogation.
@Treb oui, mais qui interrogeant seul ne fera rien. Les données doivent être analysées pour les modèles, ce que l'exploitation minière des données est.
Vous devez vraiment modifier la réponse acceptée sur cette question afin qu'elle n'entraîne pas les personnes qui y parlent. p>
disant que l'interrogation d'une base de données est l'exploitation de données, car "[H] ow découvririez-vous un modèle dans vos données sans interroger en premier?" C'est comme dire que l'ouverture de votre porte de voiture conduit parce que «comment voudriez-vous conduire quelque part sans ouvrir la porte de la voiture en premier." p>
Vous pouvez lire vos données d'un fichier texte si vous le souhaitez. Mon premier affectation d'extraction de données utilisait des ensembles de données utilisés à partir du référentiel UCI et ce sont presque tous Fichiers texte. P>
Si vous souhaitez en savoir plus sur Data Mining Démarrez en surveillant la clustering et la classification. En savoir plus sur les arbres de décision et la classification basée sur des règles. Ensuite, regardez K-le plus proche voisin et K-moyens. Après cela si vous voulez vraiment voir ce que les données minières sont toutes sur le point de regarder Cameleon, DBSCAN et supportez les machines vectorielles. N'apprenez pas nécessairement à apprendre la minutie des trois derniers (ils sont assez complexes et mathiques lourds) mais comprennent l'idée abstraite de ce qui se passe vous dire que vous devez tout savoir afin d'utiliser les nombreux outils et bibliothèques disponibles pour chaque stratégie. P>
Ce ne sont que les algorithmes qui sont apparus dans ma tête tout à l'heure. Il y a tellement d'autres que je ne me souviens pas ou je ne sais même pas encore. p>
Stackoverflow n'est-il pas une mine de données? :-)
D'une certaine manière, oui. Vous pouvez essayer d'analyser l'intérêt dans des étiquettes spécifiques au fil du temps, de voir qui est une tendance future.
En fait, vous pouvez même mesurer le niveau de connaissances des visiteurs, achevé avec les réponses qu'ils ont fournies - pourraient être utilisées pour trouver les meilleurs experts d'un certain sujet. Très pratique pour les hâte-têtes, si seulement ils pouvaient collecter suffisamment d'informations sur tous les visiteurs de haute réputation de ce site.
Je vous recommande de changer votre réponse acceptée.
Spark.apache.org ;)