Les modèles de détection d'objets en vocabulaire ouvert (OVD) offrent une flexibilité remarquable en détectant des objets à partir de requêtes textuelles arbitraires. Cependant, leur performance en zéro-shot dans des domaines spécialisés comme la télédétection est souvent compromise par l'ambiguïté inhérente du langage naturel, limitant ainsi les applications critiques en aval. Par exemple, un modèle OVD peut avoir du mal à distinguer entre des classes fines comme 'bateau de pêche' et 'yacht' car leurs embeddings sont similaires et souvent inséparables, ce qui peut entraver des objectifs spécifiques comme la surveillance de la pêche illégale en produisant des détections non pertinentes. Pour remédier à cela, les auteurs proposent une approche en cascade qui couple la généralisation large d'un grand modèle OVD pré-entraîné avec un classificateur léger few-shot. Leur méthode utilise d'abord le modèle zéro-shot pour générer des propositions d'objets avec un rappel élevé, puis affine ces propositions pour une haute précision avec un classificateur compact entraîné en temps réel sur quelques exemples annotés par l'utilisateur, réduisant ainsi considérablement les coûts élevés de l'imagerie de télédétection. Le cœur de leur cadre est FLAME, une stratégie d'apprentissage actif en une étape qui sélectionne les échantillons les plus informatifs pour l'entraînement, identifiant à la volée des candidats marginaux incertains près de la frontière de décision en utilisant l'estimation de densité, suivie d'un clustering pour assurer la diversité des échantillons, permettant une adaptation instantanée en moins d'une minute, ce qui est significativement plus rapide que les méthodes de pointe actuelles. Leur méthode surpasse constamment les performances de pointe sur les benchmarks de télédétection, établissant un cadre pratique et économe en ressources pour adapter les modèles de fondation aux besoins spécifiques des utilisateurs. Cette approche permet une adaptation rapide et efficace des modèles de détection d'objets à de nouveaux domaines, tout en réduisant les coûts et les efforts nécessaires pour l'annotation des données et l'entraînement des modèles.