8
votes

Comment les données structurées et non structurées sont-elles distinguées?

Quelles sont les différences entre les données structurées et les données non structurées? Comment cette différence affecte-t-elle les approches minières de données respectives?


2 commentaires

La question est large. Pouvez-vous donner un exemple?


Il y a une notion connexe d'un "apprentissage structuré" qui fait référence à l'apprentissage avec un "espace de production structuré". C'est lorsque l'étiquette que vous essayez de prédire peut être cassée en sublabels. Par exemple, essayer d'attribuer des parties des balises de parole à tous les mots dans une phrase est une tâche d'apprentissage structurée, car une phrase entière positionnement est une "méga-label" qui consiste en des étiquettes de point de texte individuelles


3 Réponses :


6
votes

Les termes que je connais sont les structurés et les données non structurées (identiques sur votre q sauf pour le suffixe).

Je travaille avec les deux types de données dans l'apprentissage automatique et je ne suis au courant d'aucune définition formelle; Cependant, je soupçonne que presque tout le monde dont le travail nécessite une distinction entre ces deux types de données n'a aucune difficulté à les distinguer.

Exemples de données structurées: la date / heure sur laquelle un email a été envoyé; qu'il ait une pièce jointe ou l'expéditeur de messagerie. Données non structurées: le corps de l'email.

existe-t-il une règle stable ou un ensemble de règles pour distinguer ces deux types de données? Je pense que oui. Tout d'abord, si vous pouvez construire un pour l'élément de données, il est structuré.

Une autre règle de base consiste à regarder le type de données pour ce champ de votre base de données requise pour stocker les données. S'il s'agit d'un type type de texte - pour MySQL, TINTEXT, TEXT, MEDIMTEXT ou BEANTEXT. Ou moins probable, Varchar (255) - alors que les données sont probablement non étalées .

La principale signification de cette distinction pour l'exploitation des données est probablement la suivante: les données structurées, une fois extraites du document et analysées, peuvent être utilisées comme variables dans un modèle d'apprentissage statistique / machine. Les données non structurées nécessitent toutefois une analyse ultérieure - c'est-à-dire avant de pouvoir l'utiliser dans la modélisation, vous devez d'abord la décomposer dans un ensemble d'éléments de données structurés - E.g., Nombre de mots, etc.

Par exemple, supposons que vous souhaitiez construire un système de gestion des connaissances (km) pour un groupe de serveurs au sein d'une entreprise qui fabrique des MMORPG en ligne. Vous pourriez commencer par la collection massive de messages électroniques échangés entre les membres de ce groupe.

Vous créez donc un modèle de données pour cette source - par exemple, composé de champs tels que «Sender», «destinataire», «Date / heure envoyée», que le destinataire et l'expéditeur étaient tous deux des employés du groupe de serveurs, que ce soit le Le message a été copié à d'autres personnes, etc. Les rangées de la base de données sont les courriels individuels.

Ensuite, vous écrivez un script composé d'un ensemble d'analyseurs pour extraire chaque champ de chaque courrier électronique. Pour de nombreux champs, cela est simple, par exemple, pour le champ "CC:", vous écrivez un analyseur pour analyser cette partie du message électronique et vérifier si elle est vide - si elle est, alors ce champ de votre base de données La ligne pourrait être remplie de «faux» (pour indiquer qu'aucune personne n'est copiée), sinon, «vrai». De même, Data / Time, qui est probablement sous une forme comme: 16 mars 2011 18: 45: 39.0319 (UTC). L'extraction et l'analyse de ces données sont également simples; En fait, votre langue de script a presque certainement un module pour le faire.

Mais lorsque vous arrivez au corps de l'email, alors qu'il n'est pas difficile d'extraire du reste du message électronique, l'analyse n'est pas simple. Votre modèle de données peut avoir des champs pour "Numberofords", "Mots-clés", etc. et il est simple de construire un analyseur à peupler ces champs. Les informations les plus utiles sont plus difficiles cependant - c'est-à-dire que le message électronique a été utile au destinataire? Quel était le sujet? Est-ce faisant autorité?


1 commentaires

Il existe quelques exemples dans lesquels des données structurées ne sont pas dans des données textuelles.



1
votes

L'exploitation des données des données non structurées relève généralement de la catégorie «Exploitation de texte». Il y a deux opinions différentes à ce sujet. Une opinion dit que vous avez besoin d'outils spécialisés pour effectuer un traitement de langue naturel (PNL), car c'est la seule façon de déranger un sens sémantique. L'autre approche transformera les données non structurées en matrices de texte, puis utilisez des techniques statistiques standard pour effectuer l'exploitation minière de données («sac de mots»). Dans ce cas, tout devient des données et l'ordre des mots n'est pas important.

hivers alalphe


0 commentaires

0
votes

Données structurées forte>

Les données structurées peuvent être considérées comme une base de données de données. Dans des données structurées, chaque fonctionnalité (champ) est bien documentée. Par exemple, Bank_Transaction Code> Set de données ou un jeu de données Code> Class_attendance Code> peut être considéré comme des ensembles de données structurés. P>

----------------------------------------------------------------------
|      student_id      |     student_name    |   student_attendance  |
|----------------------|---------------------|-----------------------|
|          2123        |         Jo          |           45          |
|----------------------|---------------------|-----------------------|
|          2175        |         Mark        |           10          |
|---------- -----------|---------------------|-----------------------|


0 commentaires