Je me souviens d'avoir écrémé la section Segmentation de phrase du site NLTK il y a longtemps. p>
J'utilise un remplacement de texte brut de "période" "espace" avec "Période" "Période" "Ligne manuelle" pour atteindre la segmentation de la phrase, par exemple avec un remplacement Microsoft Word ( https://github.com/ahmadhassanawan/sentence-segmentation P>
https://chrome.google.com/webstore/detail/sentence -segmentation / JFBHKBLBHHIGBGDNIJNCCCDNDHBFLCHA P>
Ceci est au lieu d'une méthode NLP comme le tokéniseur punkt de NLTK. p>
i segment pour m'aider à mieux localiser et relire des phrases qui peuvent parfois aider à la compréhension en lecture. p>
Qu'en est-il de la clause indépendante Disambalisation des limites et de la segmentation de la clause indépendante? Existe-t-il des outils qui tentent de faire cela? P>
ci-dessous est un exemple de texte. Si une clause indépendante peut être identifiée dans une phrase, il y a une scission. À partir de la fin d'une phrase, il se déplace à gauche et se divise de manière goulûte: p>
E.g. P>
Les phrases commencent et finissent. p>
souvent strong>, traitement de la langue naturelle
Outils P>
exiger que leur contribution soit divisée en
phrases pour un certain nombre de raisons. p>
Cependant strong>, limite de phrase
L'identification est difficile car la ponctuation p>
Les marques sont souvent ambiguës. P>
dénote une abréviation, point décimal,
une ellipsis ou une adresse email - pas
la fin d'une phrase. p>
sur strong> 47% des périodes du mur
Street Journal Corpus P>
désigne des abréviations. [1] p>
comme strong> bien, points d'interrogation et
Les marques d'exclamation peuvent p>
apparaît dans des citations intégrées,
Émoticônes, code informatique et argot. P>
Apprendre un ensemble de règles d'un ensemble de
documents où la phrase p>
Les pauses sont pré-marquées. p>
langues forte> comme japonais et chinois p>
avoir une phrase sans ambiguïté
marqueurs. p>
localiser la fin d'une phrase: p>
(a) si fort> p>
C'est une période, p>
Cela met fin à une phrase. P>
(b) si fort> le précédent p>
jeton est sur ma liste compilée à la main de
abréviations, alors p>
Cela ne finit pas une phrase. p>
(c) si fort> le prochain p>
jeton est capitalisé, puis p>
Cela met fin à une phrase. P>
Stratégie obtient environ 95% des phrases
correct. [2] p>
Limites de phrase de désambiguë et
atteint 98,5% de précision. P>
blockQuote>
(Je ne suis pas sûr si je le divisais correctement.) p>
S'il n'y a aucun moyen de segmenter les clauses indépendantes, existe-t-il des termes de recherche que je peux utiliser pour explorer davantage ce sujet? P>
Merci. P> Code> ->
. ^ P code>) ou une extension chromée: p>
5 Réponses :
via User Ourwelcomeformine à partir du Subreddit / R / LanguageTechnology /: P>
"Je vérifierais Corenlp de Stanford. Je crois que vous pouvez personnaliser comment une phrase est brisée. " P> blockQuote>
Au meilleur de ma connaissance, il n'y a pas d'outil facilement disponible pour résoudre ce problème exacte. Habituellement, les systèmes NLP n'entraînent pas dans le problème de l'identification de différents types de phrases et de clauses telles que définies par la grammaire anglaise. Il existe un article publié dans EMNLP qui fournit un algorithme qui utilise la balise Vous devriez trouver Section 3 de ce document utile. Il parle de syntaxe de langue anglaise dans certains détails, mais je ne pense pas que l'ensemble du papier est pertinent pour votre question. P>
Notez qu'ils ont utilisé l'analyseur Berkeley ( Démo disponible ici ), mais vous pouvez évidemment tout autre outil d'analyse de circonscription (par exemple, Stanford Parser Démo disponible ici a>). p> SBAR code> dans les arbres d'analyse pour identifier indépendant em> et dépendant des clauses em> dans une phrase. p>
Via la percée de l'utilisateur de SuperUserer: P>
J'ai trouvé différents classificateurs en utilisant La formation de chat NPS CORPUS s'est établie pour être très efficace pour un similaire application. p> blockQuote>
Le projet Chthonic donne de bonnes informations ici: p>
extraction de la clause utilisant Stanford Parser P>
partie de la réponse: p>
C'est probablement mieux si vous utilisez principalement la Constitution analyser l'arbre, et non les dépendances. P>
Les clauses sont indiquées par la balise
sbar forte>, qui est une clause introduit par une conjonction subordonnée (éventuellement vide) em>. p> Tout ce que vous avez à faire est ce qui suit: p>
- Identifiez les nœuds clausaux non root dans l'arbre d'analyse LI>
- Retirez (mais conserver séparément) les sous-arbres enracinés à ces nœuds clausaux de l'arbre principal. Li>
- Dans l'arborescence principale (après élimination des sous-arbres à l'étape 2), éliminez les suspendus em> les prépositions, les conjonctions subordonnées et les adverbes. LI> ol>
Pour une liste de toutes les balises clausales (et, en fait, toutes les balises de penn Treebank), Voir cette liste: http://www.surdeanu.info/mihai/Teaching/ ISTA555-Fall13 / Lectures / PenntreeBankCONSitues.html P>
Pour une visualisation d'analyse en ligne, vous voudrez peut-être utiliser le Demo en ligne Berkeley Parser . P>
Cela aide beaucoup à former une meilleure intuition. p>
Voici l'image générée pour votre exemple phrase:
P> blockQuote>
Je ne connais aucun outil qui fait la segmentation de la clause, mais dans la théorie de la structure rhétorique, il existe un concept appelé "Unité de discours élémentaire" qui travaillent de la même manière qu'une clause. Ils sont parfois légèrement plus petits que les clauses. P>
Vous pouvez voir la section 2.0 de ce manuel pour plus d'informations sur ce concept: P>
https://www.isi.edu/~marcu /Discourse/tagging-ref-manual.pdf P>
Il existe des logiciels disponibles en ligne pouvant segmenter la phrase dans leur unité de discours élémentaire, par exemple: P>
Dans les exemples de votre question, vous semblez diviser lors de clauses indépendantes ainsi que des clauses dépendantes. Certains scissions ne sont pas du tout des clauses. (par exemple, la précision de la phrase de «désambiguë ... est une conjonction de 2 clauses). Question très intéressante pour les linguistes informatiques, cependant. Upvote pour cela.
Je le regarde, une fois qu'une clause indépendante se trouve (par exemple, des limites de la phrase de désambiguë) dans la phrase, il suffit de scinder à gauche de l'endroit où elle commence. Il n'y a aucune inquiétude pour ce que les parties sont après la scission. Si elle est devenue "les limites de la phrase de la DISAMBGIGION, et une précision de 98,5%". (2 clauses indépendantes intérieures). Je me séparerais à gauche de "ça" pour "ça réalise" et la gauche de "Disambigue" pour "Disambiguer des frontières". Mais tu as raison; "Disambigue ... une précision" dans son ensemble n'est pas une clause indépendante et cela n'a aucun sens.