Inégalités de Hoeffding pour les fonctions lipschitziennes de suites dépendantes

Inégalités de Hoeffding pour les fonctions lipschitziennes de suites dépendantes

C. R. Acad. Sci. Paris, t. 330, Série I, p. 905–908, 2000 Probabilités/Probability Theory Inégalités de Hoeffding pour les fonctions lipschitziennes ...

125KB Sizes 0 Downloads 78 Views

C. R. Acad. Sci. Paris, t. 330, Série I, p. 905–908, 2000 Probabilités/Probability Theory

Inégalités de Hoeffding pour les fonctions lipschitziennes de suites dépendantes Emmanuel RIO UMR 8628 C CNRS, Université de Paris-Sud, bâtiment 425, Mathématique, 91405 Orsay cedex, France (Reçu le 29 mars 2000, accepté le 13 avril 2000)

Résumé.

Dans cette Note, nous obtenons des inégalités exponentielles de type Hoeffding pour les fonctions lipschitziennes de certaines suites de variables aléatoires faiblement dépendantes, incluant en particulier les suites de variables aléatoires uniformément mélangeantes au sens d’Ibragimov.  2000 Académie des sciences/Éditions scientifiques et médicales Elsevier SAS

Hoeffding inequalities for Lipschitz functions of dependent sequences Abstract.

In this Note we obtain Hoeffding type exponential inequalities for Lipschitz functions of some weakly dependent sequences. In particular these inequalities apply to uniformly mixing sequences.  2000 Académie des sciences/Éditions scientifiques et médicales Elsevier SAS

1. Introduction Dans la suite n est un entier positif non nul, et (Ei , di ) pour i variant de 1 à n est une collection d’espaces métriques finis de diamètres respectifs ∆i . Pour ` dans [1, n] on pose E ` = E1 × · · · × E` . On dit qu’une fonction f de E n dans R est M -lipschitzienne si  f (x1 , . . . , xn ) − f (y1 , . . . , yn ) 6 M d1 (x1 , y1 ) + · · · + dn (xn , yn ) .

(1)

Soit (Ω, T , P) un espace probabilisé et X1 , . . . , Xn une suite de variables à valeurs dans E1 , . . . , En respectivement. Le sujet de cette Note est de donner des conditions suffisantes sur cette suite de variables aléatoires pour obtenir l’inégalité de type Hoeffding suivante : pour tout x > 0,  −1  . P f (X1 , . . . , Xn ) − E f (X1 , . . . , Xn ) > x 6 exp −κx2 ∆21 + · · · + ∆2n

(2)

Pour des variables indépendantes, McDiarmid [4] a obtenu (2) pour κ = 2 à l’aide d’une méthode récursive. Samson [6] a étudié les inégalités de concentration de la mesure ainsi que leur application aux inégalités de Hoeffding dans le cas des suites uniformément mélangeantes. Il obtient (2) sous une condition de décroissance géométrique des coefficients de mélange uniforme au sens d’Ibragimov comme corollaire d’un résultat plus général sur les fonctionnelles lipschitziennes en norme L2 . Nous allons montrer ici que Note présentée par Michel TALAGRAND. S0764-4442(00)00290-1/FLA  2000 Académie des sciences/Éditions scientifiques et médicales Elsevier SAS. Tous droits réservés.

905

E. Rio

l’approche proposée par McDiarmid dans le cas indépendant permet d’obtenir des inégalités de Hoeffding sous une condition de décroissance polynomiale sur les coefficients de dépendance. 2. Une majoration de la transformée de Laplace Afin d’inclure certaines suites ergodiques mais non uniformément mélangeantes, nous allons considérer les coefficients de dépendance suivants, qui sont en fait une version uniforme des coefficients de dépendance définis dans Doukhan et Louhichi [3]. D ÉFINITION 1. – Soit (γ`,m )16`
  Γ(g) = E g(X`+1 , . . . , Xn ) | F` − E g(X`+1 , . . . , Xn ) ∞ 6 γ`,`+1 + · · · + γ`,n .

(3)

Nous verrons plus tard que ces coefficients sont plus généraux que ceux de mélange uniforme. Le résultat principal de cette Note est le suivant. La majoration (2) en découle. T HÉORÈME 1. – Soit f une fonction 1-lipschitzienne de E n dans R et (X1 , . . . , Xn ) une suite de variables aléatoires satisfaisant la condition (3). Alors, pour tout t positif, 2 n  X   t2 X γ`,m . ∆` + 2 log E exp tf (X1 , . . . Xn ) 6 t E f (X1 , . . . , Xn ) + 8 `=1

m>`

Démonstration. – On peut supposer que f (X1 , . . . , Xn ) est centrée. Pour ` > 0, on définit les fonctions f` par f` (x1 , . . . , x` ) = E (f (X1 , . . . , Xn ) | X1 = x1 , . . . , X` = x` ) (noter que fn = f ) et on pose F` = f` (X1 , . . . , X` ). Par convention F0 = 0. Le théorème 1 résulte de la majoration presque sûre suivante : pour tout t positif,   8 log E exp t(F` − F`−1 ) | F`−1 6 t2 (∆` + 2γ`,`+1 + · · · + 2γ`,n )2

p.s.

(4)

Pour montrer (4), on note d’abord que F`−1 = E (F` | F`−1 ). Or, pour Z variable aléatoire centrée prenant ses valeurs dans [a, b], on sait que 8 log E (exp(tZ)) 6 (b − a)2 t2 . Pour établir (4), il suffit donc de montrer que conditionnellement à F`−1 la variable aléatoire F` prend ses valeurs dans un intervalle de largeur au plus ∆` + 2γ`,`+1 + · · · + 2γ`,n . Posons  g` (x1 , . . . , x` ) = E f (x1 , . . . , x` , X`+1 , . . . , Xn )

et G` = g` (X1 , . . . , X` ).

Comme f est 1-lipschitzienne, il résulte de (3) que G` − (γ`,`+1 + · · · + γ`,n ) 6 F` 6 G` + (γ`,`+1 + · · · + γ`,n )

p.s.

Pour montrer (4), il suffit donc d’établir que   sup g` (X1 , . . . , X`−1 , y) : y ∈ E` − inf g` (X1 , . . . , X`−1 , x) : x ∈ E` 6 ∆` . Or g` est 1-lipschitzienne. Donc g` (X1 , . . . , X`−1 , y) − g` (X1 , . . . , X`−1 , x) 6 ∆` pour tout couple (x, y) de E` × E` , ce qui complète la preuve du théorème 1.

906

Inégalités de Hoeffding pour les fonctions lipschitziennes de suites dépendantes

3. Application aux suites uniformément mélangeantes D ÉFINITION 2. – Si A et B sont deux tribus de (Ω, T , P), on note ϕ(A, B) la borne supérieure des nombres P(B) − P(B | A) quand (A, B) décrit A × B privé des couples tels que P(A) = 0. Soit G` la tribu engendrée par (X` , . . . , Xn ). Pour k > 0 les coefficients de mélange uniforme ϕk sont définis par  ϕk = sup ϕ(F` , G`+k ) : ` ∈ [1, n − k − 1] . Comme conséquence du théorème 1, on obtient l’inégalité de Hoeffding suivante. C OROLLAIRE 1. – Soit (X1 , . . . , Xn ) une suite de variables aléatoires et f une fonction de E n dans R telle que f (x1 , . . . , xn ) − f (y1 , . . . , yn ) 6 ∆1 1x1 6=y1 + · · · + ∆n 1xn 6=yn . Alors l’inégalité (2) est satisfaite avec κ = 2(1 + 2ϕ1 + · · · + 2ϕn−1 )−2 . Démonstration. – Munissons Ei de la distance di définie par par di (xi , yi ) = ∆i pour xi et yi distincts. Les espaces (Ei , di ) sont de diamètre ∆i et f est 1-lipschitzienne sur E n au sens de (1). Montrons que (3) est satisfaite avec γ`,m = ∆` ϕm−` . Soit g fonction 1-lipschitzienne sur E`+1 × · · · × En . On définit les fonctions 1-lipschitziennes gm de Em+1 × · · · × En dans R par g` = g et  pour m > `. gm (xm+1 , . . . , xn ) = inf gm−1 (xm , xm+1 , . . . , xn ) : xm ∈ Em En particulier, gn est la borne inférieure des valeurs prises par g. Alors g(X`+1 , . . . , Xn ) =

n  X m=`+1

gm−1 (Xm , Xm+1 , . . . , Xn ) − inf

x∈Em

 gm−1 (x, Xm+1 , . . . , Xn ) + gn .

Par conséquent, Γ(g) 6

n X m=`+1

ϕm−` gm−1 (Xm , Xm+1 , . . . , Xn ) − inf

x∈Em



gm−1 (x, Xm+1 , . . . , Xn ) . ∞

Enfin, comme gm−1 est 1-lipschitzienne, les variables aléatoires ci-dessus sont bornées respectivement par ∆m , ce qui complète la preuve du corollaire 1. Application aux processus empiriques.– Soit S une classe finie de parties boréliennes d’un espace polonais (X , B). Soit (ξi )i une suite de variables aléatoires de lois marginales µi sur X . On pose   Zn (S) = n−1/2 1ξ1 ∈S + · · · + 1ξn ∈S − µ1 (S) − · · · − µn (S) et Mn = sup Zn (S): S ∈ S . Soit E le sous-ensemble de B des atomes de l’algèbre de Boole engendrée par S. Alors, le corollaire 1 s’applique avec Ei = E aux variables Xi définies par Xi = A si ξi est dans l’atome A, pour  f (x1 , . . . , xn ) = sup 1x1 ∈S + · · · + 1xn ∈S − µ1 (S) − · · · − µn (S) : S ∈ S . Par conséquent

  P Mn > E (Mn ) + λ 6 exp −2λ2 /(1 + 2ϕ1 + · · · + 2ϕn−1 )2 .

Si S est une classe de Vapnik–Chervonenkis de densité entière D et si les coefficients de mélange uniforme ont une somme finie Σ, la quantité E (Mn ) est majorée par constante M ne dépendant que de D et des coefficients de mélange (voir [5], proposition 3), ce qui conduit à l’inégalité de type Kolmogorov–Smirnov suivante : P(Mn > M + (1 + 2Σ)λ) 6 exp(−2λ2 ).

907

E. Rio

4. Fonction de répartition empirique des processus linéaires dans [−M, M ]. On considère une suite Soit (εi )i∈Z une suite de variables aléatoires réelles i.i.d. à valeursP (ak )k>0 de coefficients réels absolument sommable et on pose ξ` = i>0 ai ε`−i . Le pont empirique Bn est défini par Bn (t) = Zn (] − ∞, t]) pour t dans R. Nous allons voir ci-dessous que le théorème 1 produit des résultats pour les processus linéaires non mélangeants, sous des conditions de décroissance arithmétique des coefficients, et des inégalités exponentielles pour le pont empirique associé à des processus linéaires non markoviens. C OROLLAIRE 2. – Soit Q(t, a) = P(|ξ0 − t| 6 a) la fonction de concentration commune des variables ξ` . Soit Rm = |am | + |am+1 | + · · · le reste de la série. Posons C = Q(t, 2M R1) + Q(t, 2M R2) + · · · + Q(t, 2M Rn−1 ). Alors

 P(Zn (t) > λ) 6 exp −2λ2 /(1 + 2C)2 .

Démonstration. – Considérons les variables Xi,t = 1ξi 6t . Soit Ei = {0, 1} et di la distance telle que di (0, 1) = 1. Il suffit de montrer que (3) est satisfaite pour les variables X1,t , . . . , Xn,t avec γ`,m = Q(t, 2M Rm−`). Soit (ηi )i∈Z une copie de la suite (εi )i∈Z indépendante de celle-ci. On pose Ym =

m X

am−i εi +

` X

am−i ηi

et Ym,t = 1Ym 6t .

i=−∞

i=`+1

La suite Y`+1 , . . . , Yn est alors indépendante de F` et de même loi que la suite initiale. Donc Γ(g) 6

n X

 E |Xm,t − Ym,t | .

m=`+1

Or |Xm,t − Ym,t | = 1 seulement si Xm 6 t < Ym ou Ym 6 t < Xm . Comme |Xm − Ym | 6 2M Rm−` , ceci ne peut avoir lieu que si |Xm − t| 6 2M Rm−` . Par conséquent,  E |Xm,t − Ym,t | 6 Q(t, 2M Rm−`), ce qui complète la preuve du corollaire 2. Application au shift de Bernoulli. – Considérons une suite de signes symétriques indépendants (εi )i∈Z et prenons ak = 2−1−k . Les variables X` sont alors de loi uniforme sur [−1, 1]. Il en résulte que Q(t, 2Rk ) 6 21−k . Aussi C = 2 et donc P(Zn (t) > 5λ) 6 exp(−2λ2 ) dans ce cas. Cependant, ce processus particulier est issu de la transformation sur l’intervalle unité T (x) = 2x(1) et donc les techniques usuelles de perturbation de l’opérateur de Perron–Frobenius (voir [1]) s’appliquent ici. Références bibliographiques [1] Broise A., Transformations dilatantes de l’intervalle et théorèmes limites, Astérisque 238, Soc. Math. France, 1996, pp. 1–109. [2] Dudley R.M., Central limit theorems for empirical measures, Ann. Probab. 6 (1978) 899–929. [3] Louhichi S., Théorèmes limites pour des suites positivement ou faiblement dépendantes, Thèse de doctorat de l’université Paris-XI, Orsay, 1998. [4] McDiarmid C., On the method of bounded differences, in: Surveys of Combinatorics, Siemons J. (Ed.), London Math. Soc. Lect. Notes Series 141, 1989. [5] Rio E., Processus empiriques absolument réguliers et entropie universelle, Probab. Th. Rel. Fields 111 (1996) 585– 608. [6] Samson P.M., Inégalités de concentration de la mesure pour des chaînes de Markov et des processus Φ-mélangeants, Thèse de doctorat de l’université Paul-Sabatier, Toulouse, 1998.

908