1
votes

Extraire des mots anglais difficiles du texte pour la construction de vocabulaire en utilisant python ou javascript

Je veux obtenir des mots difficiles à partir de texte anglais en ligne comme de gutenberg pour la construction de vocabulaire en utilisant python ou javascript. Je n'ai pas l'habitude d'obtenir des mots simples mais un vocabulaire unique comme royal, apocryphal ..etc.

Comment m'assurer, lorsque je divise du texte, que je n'obtiens qu'un vocabulaire unique et non des mots simples.

javascript python text

6 commentaires

Comment définiriez-vous exactement les mots anglais difficiles? Vous aurez besoin de comprendre cela avant quoi que ce soit.

peut-être comme le vocabulaire SAT

Comment définiriez-vous exactement le vocabulaire SAT? Vous aurez besoin de comprendre cela avant quoi que ce soit

Je ne peux pas dire exactement mais le vocabulaire qui n'est pas des mots communs comme chat heureux chien quelque chose d'unique.

Vous pouvez faire une liste de tous les mots trop courants à votre goût, vérifier chaque mot de votre texte anglais en ligne et les supprimer s'ils correspondent à votre liste de mots courants.

ok comment serait le pseudo code

3 Réponses :

1
votes

Comme @Hoog l'a suggéré, voici le pseudocode:

simple_words = [...]
difficult_words = [word for word in english_vocabulary if word not in simple_words]

1 commentaires

J'aime la façon dont vous appelez ce pseudocode même s'il peut très bien être un python valide à l'exception de la première ligne.

0
votes

Vous pouvez également utiliser pop () pour supprimer du dictionnaire anglais le liste des mots les plus difficiles.

0 commentaires

1
votes

J'ai défini un "mot non courant" comme un mot qui n'apparaît pas dans les 10 000 premiers mots anglais les plus courants.

Les 10 000 mots les plus courants sont une limite arbitraire, mais comme indiqué dans le référentiel github :

Selon l'analyse du Oxford English Corpus, les 7 000 lemmes anglais les plus courants représentent environ 90% de l'utilisation, donc un corpus de formation de 10 000 mots est plus que suffisant pour les applications de formation pratique.

import requests

english_most_common_10k = 'https://raw.githubusercontent.com/first20hours/google-10000-english/master/google-10000-english-usa-no-swears.txt'

# Get the file of 10 k most common words from TXT file in a github repo
response = requests.get(english_most_common_10k)
data = response.text

set_of_common_words = {x for x in data.split('\n')}

# Once we have the set of common words, we can just check.
# The check is in average case O(1) operation,
# but you can use for example some sort of search three with O(log(n)) complexity
while True:
    word = input()
    if word in set_of_common_words:
        print(f'The word "{word}" is common')
    else:
        print(f'The word "{word}" is difficult')

0 commentaires