0
votes

Meilleure façon d'identifier du texte similaire à l'intérieur des chaînes?

J'ai une liste de phrases, c'est un fichier Excel, mais je peux extraire chaque ligne si nécessaire. J'ai besoin de trouver la ligne assez similaire, par exemple une ligne peut être: xxx pré>

et une ligne après que je puisse avoir la même ligne ou celle-ci: P>

ANTIBRATING SSPIRING JOINT (type 2) mod. GA200 (temp.max60°)


0 commentaires

3 Réponses :


0
votes

Une chose que vous pouvez faire est d'écrire un script, ce qui procède comme suit:

extraire les données du fichier csv
Définissez une regex qui peut conclure une similitude, un exemple de python peut être: xxx

ou tel, reportez-vous au Documentation .


1 commentaires

Bonjour, merci de votre suggestion, j'ai utilisé une regex pour trouver des doublons adjacents, mais maintenant, je dois trouver des lignes similaires.



0
votes

Le problème que vous avez est que vous ne cherchez pas une correspondance exacte, mais une personne comme. Il s'agit d'un problème même des bases de données n'ont jamais résolu et entraîne une numérisation de table complète. Nous sommes donc peu probables de le résoudre.

Cependant, je voudrais proposer que vous envisagez des alternatives: p>

  1. Vous pouvez décider de limiter les différences à des ensembles de caractères spécifiques. Dans l'exemple ci-dessus, vous ignoriez les nombres, mais vous avez respecté les lettres. Si nous pouvons supposer que cette règle restera toujours true, nous pouvons effectuer un texte remplacer sur la chaîne. LI> OL>
    ANTIBRATING SSPIRING JOINT (type 2) mod. GA160 (temp.max60°) ==> ANTIBRATING SSPIRING JOINT (type _) mod. GA_ (temp.max_°)
    


2 commentaires

Vous avez raison, mais je dois faire face à beaucoup de texte et n'est pas tout exactement comme la chaîne que j'ai postée. Et si j'ignore une valeur numérique à chaque groupe de chaîne, par exemple de A à G -> Valeur 1, de H à L -> Valeur 2, etc., espace et. sont la valeur 0 ... à la fin, je peux comparer les totaux. Mauvaise idée?


Je ne sais pas comment exactement cela vous aidera. Cela dépend de ce que vous faites avec les chiffres après les transformer en chiffres et, franchement, je soupçonne que cela finira comme une autre fonction de hachage de proxy, ce qui signifie qu'une seule différence de lettre quelque part au milieu entraînera des nombres très différents.



0
votes

Recherches fuzzy est la clé. J'ai trouvé plusieurs projets et idées, mais celui que j'ai utilisé est Tree-Agrep , je sais que c'est tout à fait Vieux mais dans ce cas fonctionne pour moi, j'ai créé ce petit script pour m'aider à créer une liste de différences afin que je puisse vérifier manuellement avec mon fichier xxx


0 commentaires