La navigation par instructions textuelles représente un défi de longue date pour les drones autonomes, les algorithmes traditionnels d'apprentissage par renforcement nécessitant d'importants jeux de données et présentant une faible adaptabilité aux nouveaux environnements. Les solutions récentes basées sur des modèles visio-linguistiques promettaient l'universalité mais exigeaient que le modèle produise des commandes textuelles, ce qui s'est avéré peu pratique pour les valeurs numériques précises et n'enseignait pas la mécanique tridimensionnelle du vol. Les chercheurs proposent une alternative remarquablement pragmatique : remplacer les instructions verbales par la simple désignation d'un point dans l'image vers lequel le drone doit se diriger.
SEE-Point-Fly (SPF) est un cadre ouvert pour la navigation aérienne visio-linguistique où, à chaque étape, le système fournit à un modèle visio-linguistique gelé l'image courante et une instruction, recevant en retour un plan structuré comprenant les coordonnées d'un point de passage sur l'image et une estimation discrète de la distance souhaitée. Parallèlement, le modèle identifie les obstacles avec des cadres pour éviter les dangers évidents, sans nécessiter d'apprentissage spécifique au vol, se contentant de la compréhension visuo-spatiale de base acquise sur des données générales. La géométrie intervient ensuite pour transformer le point 2D et la distance en déplacements 3D locaux via un modèle de caméra standard, convertis en commandes de lacet, tangage et poussée, avec un élément clé étant la mise à l'échelle adaptative de la distance permettant au drone d'accélérer dans les espaces ouverts et de ralentir près des objets.
En simulation DRL, SPF a atteint 93,9% de missions réussies contre 28,7% pour PIVOT et 0,9% pour TypeFly, avec des écarts marqués dans les tâches avec obstacles (92% contre 16%), les trajets longs (92% contre 28%) et la recherche (92% contre 36%). Sur drone réel DJI Tello EDU, le taux de réussite était de 92,7%, surpassant nettement les méthodes de référence qui échouaient en compréhension ou sur des détails physiques. L'approche adaptative a également réduit les temps d'exécution, par exemple de 61 à 28 secondes dans certains scénarios, sans perte de fiabilité, là où les méthodes de base échouaient complètement. La boucle de contrôle fonctionne avec le modèle réévaluant le point plusieurs fois par seconde (0,3-1 Hz) et le contrôle bas niveau à environ 10 Hz, pour une latence totale de 1,5 à 3 secondes, suffisante pour suivre des cibles mobiles.
Le succès de cette approche repose sur le remplacement des actions textuelles par des points visuellement ancrés, l'image étant un milieu naturel pour les modèles visio-linguistiques tandis que les paramètres de caméra permettent une reconstruction précise des commandes 3D sans apprentissage complexe. Le marquage intégré des obstacles dans le même modèle réduit les retards et améliore la précision par rapport à un détecteur séparé, et le système s'est avéré agnostique au modèle, avec des taux de réussite allant jusqu'à 100% sur certains backends en simulation. Les limitations incluent des erreurs d'interprétation du modèle sur des cibles petites ou lointaines, des estimations de distance imprécises, une réactivité limitée aux obstacles rapides et une optimalité de trajectoire non garantie, mais le passage des commandes textuelles à l'ancrage 2D apparaît comme une idée robuste et pratique.