9
votes

Où puis-je trouver une liste des mots d'arrêt hébraïque?

Où puis-je trouver une liste de mots d'arrêt hébreu?


0 commentaires

6 Réponses :


6
votes

Je doute qu'il y ait une ouverture disponible, mais comme une simple approximation, vous pouvez créer une liste de jetons très fréquents dans un corpus raisonnablement grand. Ensuite, en fonction de votre besoin, vous pouvez utiliser la liste comme telle ou filtrer manuellement, ou faire une erreur d'essai et d'erreur avec votre algorithme pour voir comment cela fonctionne.

Voici une liste des 100 jetons les plus courants de Un joli gros corpus que j'ai. Notez que, à mes fins, j'ai compté divers caractères de ponctuation comme jetons. Le nombre "1" représente tous les jetons numériques, d'où sa position haute dans la liste.

Vous seriez probablement au courant de cette liste d'arrêt est un concept problématique en hébreu en raison de la morphologie et de l'orthographe - certaines des utilisations utiles sont juste attachées aux mots.



12
votes
function getStopWords(){
return array(
'אני',
'את',
'אתה',
'אנחנו',
'אתן',
'אתם',
'הם',
'הן',
'היא',
'הוא',
'שלי',
'שלו',
'שלך',
'שלה',
'שלנו',
'שלכם',
'שלכן',
'שלהם',
'שלהן',
'לי',
'לו',
'לה',
'לנו',
'לכם',
'לכן',
'להם',
'להן',
'אותה',
'אותו',
'×–×”',
'זאת',
'אלה',
'אלו',
'תחת',
'מתחת',
'מעל',
'בין',
'עם',
'עד',
'נגר',
'על',
'אל',
'מול',
'של',
'אצל',
'כמו',
'אחר',
'אותו',
'בלי',
'לפני',
'אחרי',
'מאחורי',
'עלי',
'עליו',
'עליה',
'עליך',
'עלינו',
'עליכם',
'לעיכן',
'עליהם',
'עליהן',
'כל',
'כולם',
'כולן',
'כך',
'×›×›×”',
'×›×–×”',
'×–×”',
'זות',
'אותי',
'אותה',
'אותם',
'אותך',
'אותו',
'אותן',
'אותנו',
'ואת',
'את',
'אתכם',
'אתכן',
'איתי',
'איתו',
'איתך',
'איתה',
'איתם',
'איתן',
'איתנו',
'איתכם',
'איתכן',
'×™×”×™×”',
'תהיה',
'היתי',
'היתה',
'×”×™×”',
'להיות',
'עצמי',
'עצמו',
'עצמה',
'עצמם',
'עצמן',
'עצמנו',
'עצמהם',
'עצמהן',
'מי',
'מה',
'איפה',
'היכן',
'במקום שבו',
'אם',
'לאן',
'למקום שבו',
'מקום בו',
'איזה',
'מהיכן',
'איך',
'כיצד',
'באיזו מידה',
'מתי',
'בשעה ש',
'כאשר',
'כש',
'למרות',
'לפני',
'אחרי',
'מאיזו סיבה',
'הסיבה שבגללה',
'למה',
'מדוע',
'לאיזו תכלית',
'×›×™',
'יש',
'אין',
'אך',
'מנין',
'מאין',
'מאיפה',
'יכל',
'יכלה',
'יכלו',
'יכול',
'יכולה',
'יכולים',
'יכולות',
'יוכלו',
'יוכל',
'מסוגל',
'לא',
'רק',
'אולי',
'אין',
'לאו',
'אי',
'כלל',
'נגד',
'אם',
'עם',
'אל',
'אלה',
'אלו',
'אף',
'על',
'מעל',
'מתחת',
'מצד',
'בשביל',
'לבין',
'באמצע',
'בתוך',
'דרך',
'מבעד',
'באמצעות',
'למעלה',
'למטה',
'מחוץ',
'מן',
'לעבר',
'מכאן',
'כאן',
'×”× ×”',
'הרי',
'פה',
'שם',
'אך',
'ברם',
'שוב',
'אבל',
'מבלי',
'בלי',
'מלבד',
'רק',
'בגלל',
'מכיוון',
'עד',
'אשר',
'ואילו',
'למרות',
'אס',
'כמו',
'כפי',
'אז',
'אחרי',
'כן',
'לכן',
'לפיכך',
'מאד',
'×¢×–',
'מעט',
'מעטים',
'במידה',
'שוב',
'יותר',
'מדי',
'גם',
'כן',
'נו',
'אחר',
'אחרת',
'אחרים',
'אחרות',
'אשר',
'או'
);
}

0 commentaires

2
votes

Le Centre de Mila dispose d'une liste de jetons haute fréquence compilés de grandes corporaillons avec lesquelles ils travaillent. Voir le bas de la page: http: // www .mila.cs.technion.ac.il / hébreu / ressources / corpora / index.html .

Également, une autre chose à prendre en compte est d'arrêter les mots ambiguïté - où un certain mot peut être sans aucun sens ou avec une signification très imprévente. Par exemple - les mots אלה et אשר, les deux sont à la fois des prépositions hébraïques et des noms personnels valides. Plus d'informations sur ce phénomène hébraïque se trouvent ici: http: // www.code972.com/blog/2010/05/CHallenges-Intexing-hebrew/ (Faites défiler jusqu'à "Arrêt des mots ambiguïté").

À cause de cela, je ne pense pas qu'il soit possible d'avoir une liste d'arrêt hébraïque complète et absolue - elle dépend trop de vos corpus et de votre cas d'utilisation.


0 commentaires

0
votes

Le lien fourni précédemment est cassé. Ceci est le nouveau lien: http://www.mila.cs.technion.ac .il / index.html

La liste en question a des termes manquants (אךך, אכןכן, אכםכם, etc.).

genre Cordialement, Yaron Shahrabani.


0 commentaires

0
votes

Voici une liste de 500 mots d'arrêt hébraïque (avec et sans les comptes):

https: // github .com / gidim / hebrewstopwords

Également disponible ici: xxx


0 commentaires

0
votes

J'ai trouvé ce fichier .xlsx dans https: //yeda.cs. technion.ac.il/resources_lexicons_stopWords.html C'est une liste très d'accès (lignes 23K) et vous pouvez obtenir la liste de personnes assez rapidement


0 commentaires