Où puis-je trouver une liste de mots d'arrêt hébreu? P>
6 Réponses :
Je doute qu'il y ait une ouverture disponible, mais comme une simple approximation, vous pouvez créer une liste de jetons très fréquents dans un corpus raisonnablement grand. Ensuite, en fonction de votre besoin, vous pouvez utiliser la liste comme telle ou filtrer manuellement, ou faire une erreur d'essai et d'erreur avec votre algorithme pour voir comment cela fonctionne. p>
Voici une liste des 100 jetons les plus courants de Un joli gros corpus que j'ai. Notez que, à mes fins, j'ai compté divers caractères de ponctuation comme jetons. Le nombre "1" représente tous les jetons numériques, d'où sa position haute dans la liste. p>
Vous seriez probablement au courant de cette liste d'arrêt est un concept problématique en hébreu en raison de la morphologie et de l'orthographe - certaines des utilisations utiles sont juste attachées aux mots. p>
function getStopWords(){ return array( '×× ×', '×ת', '×ת×', '×× ×× ×', '×ת×', '×ת×', '××', '××', '×××', '×××', 'ש××', 'ש××', 'ש××', 'ש××', 'ש×× ×', 'ש×××', 'ש×××', 'ש×××', 'ש×××', '××', '××', '××', '×× ×', '×××', '×××', '×××', '×××', '××ת×', '××ת×', '××', '××ת', '×××', '×××', 'ת×ת', '×ת×ת', '××¢×', '×××', '×¢×', '×¢×', '× ×ר', '×¢×', '××', '×××', 'ש×', '×צ×', '×××', '××ר', '××ת×', '×××', '××¤× ×', '××ר×', '××××ר×', '×¢××', '×¢×××', '×¢×××', '×¢×××', '×¢××× ×', '×¢××××', '××¢×××', '×¢××××', '×¢××××', '××', '××××', '××××', '××', '×××', '×××', '××', '××ת', '××ת×', '××ת×', '××ת×', '××ת×', '××ת×', '××ת×', '×××ª× ×', '××ת', '×ת', '×ת××', '×ת××', '××ת×', '××ת×', '××ת×', '××ת×', '××ת×', '××ת×', '×××ª× ×', '××ת××', '××ת××', '××××', 'ת×××', '××ת×', '××ת×', '×××', '××××ת', 'עצ××', 'עצ××', 'עצ××', 'עצ××', 'עצ××', 'עצ×× ×', 'עצ×××', 'עצ×××', '××', '××', '××פ×', '××××', '××ק×× ×©××', '××', '×××', '××ק×× ×©××', '×ק×× ××', '××××', '×××××', '×××', '××צ×', '××××× ××××', '×ת×', '××©×¢× ×©', '××שר', '×ש', '××ר×ת', '××¤× ×', '××ר×', '××××× ×¡×××', '×ס××× ×©×××××', '×××', '××××¢', '××××× ×ª×××ת', '××', '×ש', '×××', '××', '×× ××', '××××', '×××פ×', '×××', '××××', '××××', '××××', '×××××', '××××××', '×××××ת', '×××××', '××××', '×ס×××', '××', 'רק', '××××', '×××', '×××', '××', '×××', '× ××', '××', '×¢×', '××', '×××', '×××', '××£', '×¢×', '××¢×', '×ת×ת', '×צ×', '×ש×××', '××××', '×××צע', '×ת××', '×ר×', '×××¢×', '×××צע×ת', '×××¢××', '××××', '××××¥', '××', '××¢×ר', '××××', '×××', '×× ×', '×ר×', 'פ×', 'ש×', '××', '×ר×', 'ש××', '×××', '××××', '×××', '××××', 'רק', '××××', '××××××', '×¢×', '×שר', '×××××', '××ר×ת', '×ס', '×××', '×פ×', '××', '××ר×', '××', '×××', '×פ×××', '×××', '×¢×', '××¢×', '××¢×××', '×××××', 'ש××', '××תר', '×××', '××', '××', '× ×', '××ר', '××רת', '××ר××', '××ר×ת', '×שר', '××' ); }
Le Centre de Mila dispose d'une liste de jetons haute fréquence compilés de grandes corporaillons avec lesquelles ils travaillent. Voir le bas de la page: http: // www .mila.cs.technion.ac.il / hébreu / ressources / corpora / index.html . P>
Également, une autre chose à prendre en compte est d'arrêter les mots ambiguïté - où un certain mot peut être sans aucun sens ou avec une signification très imprévente. Par exemple - les mots אלה et אשר, les deux sont à la fois des prépositions hébraïques et des noms personnels valides. Plus d'informations sur ce phénomène hébraïque se trouvent ici: http: // www.code972.com/blog/2010/05/CHallenges-Intexing-hebrew/ (Faites défiler jusqu'à "Arrêt des mots ambiguïté"). P>
À cause de cela, je ne pense pas qu'il soit possible d'avoir une liste d'arrêt hébraïque complète et absolue - elle dépend trop de vos corpus et de votre cas d'utilisation. P>
Le lien fourni précédemment est cassé. Ceci est le nouveau lien: http://www.mila.cs.technion.ac .il / index.html p>
La liste en question a des termes manquants (אךך, אכןכן, אכםכם, etc.). P>
genre Cordialement, Yaron Shahrabani. P>
Voici une liste de 500 mots d'arrêt hébraïque (avec et sans les comptes):
https: // github .com / gidim / hebrewstopwords p>
Également disponible ici: p>
J'ai trouvé ce fichier .xlsx dans https: //yeda.cs. technion.ac.il/resources_lexicons_stopWords.html C'est une liste très d'accès (lignes 23K) et vous pouvez obtenir la liste de personnes assez rapidement p>