6
votes

Disambimentation de la clause indépendante et segmentation de la clause indépendante - Tous les outils pour le faire?

Je me souviens d'avoir écrémé la section Segmentation de phrase du site NLTK il y a longtemps.

J'utilise un remplacement de texte brut de "période" "espace" avec "Période" "Période" "Ligne manuelle" pour atteindre la segmentation de la phrase, par exemple avec un remplacement Microsoft Word ( -> . ^ P ) ou une extension chromée:

https://github.com/ahmadhassanawan/sentence-segmentation

https://chrome.google.com/webstore/detail/sentence -segmentation / JFBHKBLBHHIGBGDNIJNCCCDNDHBFLCHA

Ceci est au lieu d'une méthode NLP comme le tokéniseur punkt de NLTK.

i segment pour m'aider à mieux localiser et relire des phrases qui peuvent parfois aider à la compréhension en lecture.

Qu'en est-il de la clause indépendante Disambalisation des limites et de la segmentation de la clause indépendante? Existe-t-il des outils qui tentent de faire cela?

ci-dessous est un exemple de texte. Si une clause indépendante peut être identifiée dans une phrase, il y a une scission. À partir de la fin d'une phrase, il se déplace à gauche et se divise de manière goulûte:

E.g.

phrase Disambalisation des limites (SBD), également appelé phrase Briser, est le problème en naturel Traitement de la langue de décider où

Les phrases commencent et finissent.

souvent , traitement de la langue naturelle Outils

exiger que leur contribution soit divisée en phrases pour un certain nombre de raisons.

Cependant , limite de phrase L'identification est difficile car la ponctuation

Les marques sont souvent ambiguës.

pour exemple, une période peut

dénote une abréviation, point décimal, une ellipsis ou une adresse email - pas la fin d'une phrase.

sur 47% des périodes du mur Street Journal Corpus

désigne des abréviations. [1]

comme bien, points d'interrogation et Les marques d'exclamation peuvent

apparaît dans des citations intégrées, Émoticônes, code informatique et argot.

une autre approche est automatiquement

Apprendre un ensemble de règles d'un ensemble de documents où la phrase

Les pauses sont pré-marquées.

langues comme japonais et chinois

avoir une phrase sans ambiguïté marqueurs.

l'approche standard 'vanille' de

localiser la fin d'une phrase:

(a) si

C'est une période,

Cela met fin à une phrase.

(b) si le précédent

jeton est sur ma liste compilée à la main de abréviations, alors

Cela ne finit pas une phrase.

(c) si le prochain

jeton est capitalisé, puis

Cela met fin à une phrase.

ceci

Stratégie obtient environ 95% des phrases correct. [2]

Solutions ont été basés sur un maximum modèle d'entropie. [3]

L'architecture satz utilise un neural réseau à

Limites de phrase de désambiguë et atteint 98,5% de précision.

(Je ne suis pas sûr si je le divisais correctement.)

S'il n'y a aucun moyen de segmenter les clauses indépendantes, existe-t-il des termes de recherche que je peux utiliser pour explorer davantage ce sujet?

Merci.


2 commentaires

Dans les exemples de votre question, vous semblez diviser lors de clauses indépendantes ainsi que des clauses dépendantes. Certains scissions ne sont pas du tout des clauses. (par exemple, la précision de la phrase de «désambiguë ... est une conjonction de 2 clauses). Question très intéressante pour les linguistes informatiques, cependant. Upvote pour cela.


Je le regarde, une fois qu'une clause indépendante se trouve (par exemple, des limites de la phrase de désambiguë) dans la phrase, il suffit de scinder à gauche de l'endroit où elle commence. Il n'y a aucune inquiétude pour ce que les parties sont après la scission. Si elle est devenue "les limites de la phrase de la DISAMBGIGION, et une précision de 98,5%". (2 clauses indépendantes intérieures). Je me séparerais à gauche de "ça" pour "ça réalise" et la gauche de "Disambigue" pour "Disambiguer des frontières". Mais tu as raison; "Disambigue ... une précision" dans son ensemble n'est pas une clause indépendante et cela n'a aucun sens.


5 Réponses :


0
votes

via User Ourwelcomeformine à partir du Subreddit / R / LanguageTechnology /:

"Je vérifierais Corenlp de Stanford. Je crois que vous pouvez personnaliser comment une phrase est brisée. "


0 commentaires

5
votes

Au meilleur de ma connaissance, il n'y a pas d'outil facilement disponible pour résoudre ce problème exacte. Habituellement, les systèmes NLP n'entraînent pas dans le problème de l'identification de différents types de phrases et de clauses telles que définies par la grammaire anglaise. Il existe un article publié dans EMNLP qui fournit un algorithme qui utilise la balise SBAR dans les arbres d'analyse pour identifier indépendant et dépendant des clauses dans une phrase.

Vous devriez trouver Section 3 de ce document utile. Il parle de syntaxe de langue anglaise dans certains détails, mais je ne pense pas que l'ensemble du papier est pertinent pour votre question.

Notez qu'ils ont utilisé l'analyseur Berkeley ( Démo disponible ici ), mais vous pouvez évidemment tout autre outil d'analyse de circonscription (par exemple, Stanford Parser Démo disponible ici ).


0 commentaires

0
votes

Via la percée de l'utilisateur de SuperUserer:

J'ai trouvé différents classificateurs en utilisant La formation de chat NPS CORPUS s'est établie pour être très efficace pour un similaire application.


0 commentaires

1
votes

Le projet Chthonic donne de bonnes informations ici:

extraction de la clause utilisant Stanford Parser

partie de la réponse:

C'est probablement mieux si vous utilisez principalement la Constitution analyser l'arbre, et non les dépendances.

Les clauses sont indiquées par la balise sbar , qui est une clause introduit par une conjonction subordonnée (éventuellement vide) .

Tout ce que vous avez à faire est ce qui suit:

  1. Identifiez les nœuds clausaux non root dans l'arbre d'analyse
  2. Retirez (mais conserver séparément) les sous-arbres enracinés à ces nœuds clausaux de l'arbre principal.
  3. Dans l'arborescence principale (après élimination des sous-arbres à l'étape 2), éliminez les suspendus les prépositions, les conjonctions subordonnées et les adverbes.

    Pour une liste de toutes les balises clausales (et, en fait, toutes les balises de penn Treebank), Voir cette liste: http://www.surdeanu.info/mihai/Teaching/ ISTA555-Fall13 / Lectures / PenntreeBankCONSitues.html

    Pour une visualisation d'analyse en ligne, vous voudrez peut-être utiliser le Demo en ligne Berkeley Parser .

    Cela aide beaucoup à former une meilleure intuition.

    Voici l'image générée pour votre exemple phrase: Arbre d'analyseur Berkeley


0 commentaires

1
votes

Je ne connais aucun outil qui fait la segmentation de la clause, mais dans la théorie de la structure rhétorique, il existe un concept appelé "Unité de discours élémentaire" qui travaillent de la même manière qu'une clause. Ils sont parfois légèrement plus petits que les clauses.

Vous pouvez voir la section 2.0 de ce manuel pour plus d'informations sur ce concept:

https://www.isi.edu/~marcu /Discourse/tagging-ref-manual.pdf

Il existe des logiciels disponibles en ligne pouvant segmenter la phrase dans leur unité de discours élémentaire, par exemple:

http://alt.qcre.org/tools/discours-parser/

et

https://github.com/jiyfeng/dplp


0 commentaires