J'ai une liste de phrases, c'est un fichier Excel, mais je peux extraire chaque ligne si nécessaire.
J'ai besoin de trouver la ligne assez similaire, par exemple une ligne peut être: et une ligne après que je puisse avoir la même ligne ou celle-ci: P> ANTIBRATING SSPIRING JOINT (type 2) mod. GA200 (temp.max60°)
3 Réponses :
Une chose que vous pouvez faire est d'écrire un script, ce qui procède comme suit:
extraire les données du fichier csv
Définissez une regex qui peut conclure une similitude, un exemple de python peut être: p> blockQuote>xxx pré> ou tel, reportez-vous au Documentation . P> P>
Bonjour, merci de votre suggestion, j'ai utilisé une regex pour trouver des doublons adjacents, mais maintenant, je dois trouver des lignes similaires.
Le problème que vous avez est que vous ne cherchez pas une correspondance exacte, mais une personne comme. Il s'agit d'un problème même des bases de données n'ont jamais résolu et entraîne une numérisation de table complète. Nous sommes donc peu probables de le résoudre.
Cependant, je voudrais proposer que vous envisagez des alternatives: p>
ANTIBRATING SSPIRING JOINT (type 2) mod. GA160 (temp.max60°) ==> ANTIBRATING SSPIRING JOINT (type _) mod. GA_ (temp.max_°)
Vous avez raison, mais je dois faire face à beaucoup de texte et n'est pas tout exactement comme la chaîne que j'ai postée. Et si j'ignore une valeur numérique à chaque groupe de chaîne, par exemple de A à G -> Valeur 1, de H à L -> Valeur 2, etc., espace et. sont la valeur 0 ... à la fin, je peux comparer les totaux. Mauvaise idée?
Je ne sais pas comment exactement cela vous aidera. Cela dépend de ce que vous faites avec les chiffres après les transformer en chiffres et, franchement, je soupçonne que cela finira comme une autre fonction de hachage de proxy, ce qui signifie qu'une seule différence de lettre quelque part au milieu entraînera des nombres très différents.
Recherches fuzzy est la clé.
J'ai trouvé plusieurs projets et idées, mais celui que j'ai utilisé est Tree-Agrep , je sais que c'est tout à fait Vieux mais dans ce cas fonctionne pour moi, j'ai créé ce petit script pour m'aider à créer une liste de différences afin que je puisse vérifier manuellement avec mon fichier