Cette étude explore l'apprentissage par renforcement à partir de retours humains (RLHF) avec régularisation KL, une fonction objectif couramment utilisée pour l'alignement des grands modèles de langage, dans le cadre de la confidentialité différentielle locale (ε-LDP) appliquée aux étiquettes des préférences humaines. Dans le contexte hors ligne, les auteurs conçoivent un algorithme basé sur le principe de pessimisme et obtiennent une nouvelle borne de sous-optimalité de l'ordre de Õ(1/[(e^ε-1)^2 n]) pour l'objectif régularisé par KL sous une hypothèse de concentrabilité à politique unique, démontrant également l'optimalité de cette borne via un résultat inférieur correspondant où n représente la taille de l'échantillon.

Pour le contexte en ligne, cette recherche est la première à étudier théoriquement le problème du RLHF avec régularisation KL sous confidentialité différentielle. Un algorithme optimiste est développé, aboutissant à une borne de regret logarithmique en O(dℱ log(Nℱ·T)/(e^ε-1)^2), où T est le nombre total d'étapes, Nℱ la cardinalité de l'espace des fonctions de récompense et dℱ une variante de la dimension d'éluder adaptée au RLHF. Un résultat annexe de cette analyse est la première étude théorique du RLHF avec régularisation KL en ligne sans contrainte de confidentialité.

Les auteurs ont implémenté leur algorithme dans le cadre hors ligne pour valider empiriquement leurs résultats théoriques et ont rendu leur code open source accessible publiquement, favorisant ainsi la reproductibilité et les avancées futures dans ce domaine de recherche.