J'ai un corpus de quelques 100 mille documents juridiques (principalement de l'Union européenne) - Lois, commentaires, documents judiciaires, etc. J'essaie d'algorithmiquement un peu d'entre eux. P>
J'ai modélisé les relations connues (temporelle, ces changements - cela, etc.). Mais sur le niveau de document unique, j'aimerais avoir de meilleurs outils pour permettre une compréhension rapide. Je suis ouvert aux idées, mais voici une question plus précise: p>
Par exemple: Y a-t-il des méthodes de PNL pour déterminer les parties pertinentes / controversées des documents par opposition à la chair de chaudron? Les papiers TTIP récemment divulgués sont des milliers de pages avec des tables de données, mais une phrase quelque part là-dessus peut détruire une industrie. P>
J'ai joué avec le nouveau Parsey Mcparface de Google CODE>, et d'autres solutions NLP dans le passé, mais lorsqu'ils fonctionnent bien, je ne sais pas à quel point ils sont bons à isolement. P>
3 Réponses :
Je vois que vous avez une usersese intéressante. Vous avez également mentionné la présence d'un corpus (ce qui est vraiment bon plus). Permettez-moi de relier une solution que j'avais esquissée pour avoir extrait le creux des papiers de recherche. p>
Pour comprendre des documents, vous avez besoin de déclencheurs pour dire (ou former) l'ordinateur pour rechercher ces "déclencheurs". Vous pouvez aborder cela en utilisant un algorithme d'apprentissage supervisé avec une simple mise en œuvre d'un problème de classification de texte au niveau le plus élémentaire. Mais cela aurait besoin d'un travail préalable, de l'aide d'experts de domaine initialement pour discerner les "déclencheurs" des données textuelles. Il existe des outils pour extraire des gisés de phrases - par exemple, prenez des phrases de nom dans une phrase, affectez des poids basés sur des co-octroyages et les représentent comme des vecteurs. Ceci est vos données de formation. Cela peut être un très bon début d'intégration de PNL dans votre domaine. P>
N'utilisez pas de déclencheurs. Ce dont vous avez besoin, c'est un désambigu des mots de signature et une adaptation de domaine. Vous voulez avoir du sens, c'est dans les documents, c'est comprendre la sémantique de comprendre le sens. Vous pouvez créer une ontologie juridique de termes dans le format SKOS ou JSON-LD le constitue sur un graphique de connaissances et l'utiliser avec une analyse de dépendance comme Tensorflow / ParsymcCarseFace. Ou, vous pouvez diffuser vos documents à l'aide d'une architecture basée à Kappa - quelque chose comme Kafka-FLINK-ElasticSeSearch avec des couches NLP intermédiaires ajoutées à l'aide de corenlp / tensorflow / UIMA, mettez en cache votre configuration d'indexation entre FLINK et ElasticseSearch à l'aide de ReDIS pour accélérer le processus. Pour comprendre la pertinence, vous pouvez appliquer des cas spécifiques de boosting dans votre recherche. En outre, appliquez une analyse du sentiment pour élaborer des intentions et une vérité. Votre cas d'utilisation est l'une des données d'extraction des informations, de résumation et de données Web sémantiques / liées. Comme l'UE dispose d'un système juridique différent, vous auriez besoin de généraliser d'abord sur ce qui est vraiment un document juridique, puis de la réduire à des concepts juridiques spécifiques tels qu'ils concernent un sujet ou une région. Vous pouvez également utiliser ici des techniques de modélisation de sujet de LDA ou Word2vec / Sense2vec. De plus, le citron pourrait également aider à convertir lexical en sémantique et sémantique en lexical i.e NLP-> ontologie -> ontology-> nlp. Essentiellement, nourrir le regroupement dans votre classification d'une reconnaissance de l'entité nommée. Vous pouvez également utiliser le clustering pour vous aider à développer l'ontologie ou à voir quels vecteurs de mots sont dans un document ou un ensemble de documents utilisant la similarité de cosinus. Mais, afin de faire tout ce qu'il est préférable de visualiser le mot la cérémonie de vos documents. Quelque chose comme le raisonnement de la communication + une profonde apprentissage pourrait également aider dans votre cas. P>
Afin de donner un sens à partir de documents, vous devez effectuer une sorte d'analyse sémantique. Vous avez deux possibilités principales avec leurs exemples: p>
Utiliser une sémantique de cadre: http://www.cs.cmu.edu/~ark/semafor/ p>
Utilisez l'étiquetage de rôle sémantique (SRL): http://cogcompomp.org/page/demo_view/srl P>
Une fois que vous êtes en mesure d'extraire des informations des documents, vous pouvez appliquer un post-traitement pour déterminer quelles informations sont pertinentes. Trouver quelles informations sont pertinentes est liée à la tâche et je ne pense pas que vous puissiez trouver un outil générique qui extrait des informations «les informations pertinentes». p>