1
votes

Recherche du mot le plus long dans un fichier .text sans signes de ponctuation

Je fais des exercices d'E / S de fichiers Python et même si j'ai fait d'énormes progrès sur un exercice dans lequel j'essaie de trouver les mots les plus longs dans chaque ligne d'un fichier .txt , je ne peux pas débarrassez-vous des signes de ponctuation .

Voici le code que j'ai:

'Twas brillig, and the slithy toves
Did gyre and gimble in the wabe;
All mimsy were the borogoves,
And the mome raths outgrabe.

"Beware the Jabberwock, my son!
The jaws that bite, the claws that catch!
Beware the Jubjub bird, and shun
The frumious Bandersnatch!"

He took his vorpal sword in hand:
Long time the manxome foe he sought,
So rested he by the Tumtum tree,
And stood a while in thought.

And, as in uffish thought he stood,
The Jabberwock, with eyes of flame,
Came whiffling through the tulgey wood,
And burbled as it came!

One two! One two! And through and through
The vorpal blade went snicker-snack!
He left it dead, and with its head
He went galumphing back.

"And hast thou slain the Jabberwock?
Come to my arms, my beamish boy!"
"Oh frabjous day! Callooh! Callay!"
He chortled in his joy.

'Twas brillig, and the slithy toves
Did gyre and gimble in the wabe:
All mimsy were the borogoves,
And the mome raths outgrabe.

Voici la sortie que j'obtiens

Ceci est le fichier original-3.txt où je lis les données de

with open("original-3.txt", 'r') as file1:
lines = file1.readlines()
for line in lines:
    if not line == "\n":
        print(max(line.split(), key=len))

Comme vous pouvez le voir, j'obtiens les signes de ponctuation comme ["," ";" "?" "!"]

Comment pensez-vous que je ne peux obtenir que les mots eux-mêmes?

Merci

python parsing text-processing text-parsing

1 commentaires

vous pouvez utiliser regex - pour obtenir toutes les chaînes alphabétiques purs dans une liste - puis trouver celle qui a la longueur maximale

3 Réponses :

1
votes

Vous devez supprimer ces caractères des mots:

import re


for line in lines: 
    words = re.findall(r"\w+", line) 
    if words: 
        print(max(words, key=len))

ou vous utilisez des expressions régulières pour extraire tout ce qui ressemble à un mot (c'est-à-dire composé de lettres) :

with open("original-3.txt", 'r') as file1:
    lines = file1.readlines()
for line in lines:
    if not line == "\n":
        print(max(word.strip(",?;!\"") for word in line.split()), key=len))

1 commentaires

Merci beaucoup eumiro

2
votes

En utilisant Regex, il est très facile d'obtenir quelle est la longueur du mot le plus long :

import re

for line in lines:
    found_strings = re.findall(r'\w+', line)
    print(max([len(txt) for txt in found_strings]))

3 commentaires

Merci beaucoup Sowjanya. Je me demande ce que fait réellement r '\ w +'? Regex m'est un peu étrangère puisque je suis novice en Python

\ w signifie capturer un alphabet . + signifie répéter . donc \ w + donne flux d'alphabets répétés . consultez des exemples très basiques - w3schools.com/python/python_regex.asp

ma réponse donne la longueur du mot le plus long . si vous voulez que la logique du mot le plus long soit différente, vous pouvez essayer vous-même. tout d'abord, imprimez ce qui est found_strings et voyez

1
votes

Cette solution n'utilise pas d'expressions régulières. Il divise la ligne en mots, puis nettoie chaque mot afin qu'il ne contienne que des caractères alphabétiques.

with open("original-3.txt", 'r') as file1:
    lines = file1.readlines()
    for line in lines:
        if not line == "\n":
            words = line.split()
            for i, word in enumerate(words):
                words[i] = "".join([letter for letter in word if letter.isalpha()])
            print(max(words, key=len))

0 commentaires