Les modèles de langage de grande taille ont démontré des capacités remarquables dans de nombreuses langues, mais leur efficacité dans les langues peu dotées comme le persan nécessite une investigation approfondie. Cette recherche présente un benchmark complet de plusieurs modèles open source pour des tâches de traitement du langage naturel en persan, utilisant les paradigmes d'apprentissage zero-shot et few-shot.
L'évaluation porte sur une gamme de tâches incluant l'analyse de sentiments, la reconnaissance d'entités nommées, la compréhension de lecture et la réponse aux questions, en utilisant des jeux de données persans établis tels que ParsiNLU et ArmanEmo. La méthodologie englobe des configurations expérimentales rigoureuses pour les deux scénarios, employant des métriques comme l'exactitude, le score F1, BLEU et ROUGE pour l'évaluation des performances.
Les résultats montrent que Gemma 2 surpasse constamment les autres modèles dans presque toutes les tâches et les deux paradigmes d'apprentissage, avec des performances particulièrement solides dans les tâches de raisonnement complexe. Cependant, la plupart des modèles éprouvent des difficultés avec les tâches de compréhension au niveau token comme la reconnaissance d'entités nommées, soulignant des défis spécifiques au traitement de la langue persane.