Estimation de la densité de probabilité améliorée par pre-testing

Estimation de la densité de probabilité améliorée par pre-testing

C. R. Acad. Sci. Paris, Ser. I 340 (2005) 623–626 http://france.elsevier.com/direct/CRASS1/ Statistique/Probabilités Estimation de la densité de pro...

96KB Sizes 0 Downloads 22 Views

C. R. Acad. Sci. Paris, Ser. I 340 (2005) 623–626 http://france.elsevier.com/direct/CRASS1/

Statistique/Probabilités

Estimation de la densité de probabilité améliorée par pre-testing Armel Fabrice Yode L.A.T.P., université de Provence, 39, rue F. Joliot Curie, 13453 Marseille cedex 13, France Reçu le 28 février 2004 ; accepté après révision le 8 mars 2005 Disponible sur Internet le 18 avril 2005 Présenté par Paul Deheuvels

Résumé Nous considérons le problème d’estimation non-paramétrique de la densité de probabilité multidimensionnelle. Grâce au concept de risque minimax avec normalisation aléatoire introduit par Lepski [Math. Methods Statist. 8 (1999) 441–486], en considérant une hypothèse « plausible » que la densité se decompose en produit de densités marginales, nous construisons un estimateur qui peut être adaptatif et dont la qualité dépendant de l’observation est meilleure que celle de l’estimation minimax β − 2β+d

n

avec une probabilité controlée. Pour citer cet article : A.F. Yode, C. R. Acad. Sci. Paris, Ser. I 340 (2005).

 2005 Académie des sciences. Publié par Elsevier SAS. Tous droits réservés.

Abstract Improvement in the accuracy of multidimensional probability density estimate by pre-testing. We consider the nonparametric problem of multidimensional probability density estimate. Using concept of minimax risk with random normalizing factor introduced by Lepski [Math. Methods Statist. 8 (1999) 441–486], by considering an independence hypothesis, we build an estimator which can be adaptive and whose accuracy, depending on the observation, is better than the minimax estimate, β − 2β+d

n

, with prescribed confidence level. To cite this article: A.F. Yode, C. R. Acad. Sci. Paris, Ser. I 340 (2005).

 2005 Académie des sciences. Publié par Elsevier SAS. Tous droits réservés.

1. Introduction (1)

Nous considérons l’expérience statistique engendrée par l’observation X n = (X1 , . . . , Xn ) où Xi = (Xi , . . . , i = 1, . . . , n, d > 2, sont des vecteurs aléatoires indépendants identiquement distribués (i.i.d) de loi commune admettant la densité f inconnue. Nous supposons que f est une fonction à support compact appartenant à un certain espace fonctionnel Σ. Pour tout estimateur f˜n = f˜n (X n ) de f sur Σ , le risque maximal normalisé par la suite positive ϕn (Σ) → 0, n → +∞, est défini par (d) Xi ),

Adresse e-mail : [email protected] (A.F. Yode). 1631-073X/$ – see front matter  2005 Académie des sciences. Publié par Elsevier SAS. Tous droits réservés. doi:10.1016/j.crma.2005.03.012

624

A.F. Yode / C. R. Acad. Sci. Paris, Ser. I 340 (2005) 623–626

  q  Rn f˜n , Σ, ϕn (Σ) = sup Efn ϕn−1 (Σ)f˜n − f 2 , f ∈Σ

 

1/2

q > 0, f 2 =

f 2 (x) dx

.

(1)

[0,1]d

Soit Mn , l’ensemble de tous les estimateurs possibles de f sur Σ . La suite ϕn (Σ) est appelée vitesse optimale de convergence sur Σ en considérant le risque (1) si (i) lim infn→+∞ inff˜n ∈Mn Rn (f˜n , Σ, ϕn (Σ)) > 0, (ii) il existe f¯n ∈ Mn dit asymptotiquement optimal tel que lim supn→+∞ Rn (f¯n , Σ, ϕn (Σ)) < +∞. Étant donné f¯n et ϕn (Σ), en utilisant (ii), pour tout 0 < γ < 1, il existe une constante M(γ ) > 0 telle que   inf Pfn f¯n − f 2  M(γ )ϕn (Σ)  1 − γ , pour n assez grand. f ∈Σ

(2)

Ainsi, avec un niveau de confiance d’au moins 1 − γ , la région de confiance pour f est la boule de centre f¯n et de rayon M(γ )ϕn (Σ). Le rayon de cette région est décrit par ϕn (Σ). Ainsi, ϕn (Σ) est considérée comme la qualité d’estimation. Peut-on trouver une normalisation qui tend plus vite vers 0 que ϕn (Σ) ? C’est à cette question que nous tenterons de répondre dans cette Note. Il est clair que la réponse est négative dans le cadre de la théorie minimax d’après (i). Cependant, la considération d’autres types de risques peut conduire à une amélioration éventuelle de la qualité d’estimation. Nous utiliserons le concept de risque minimax avec normalisation aléatoire initié par Lepski [4] pour répondre à cette question. 2. Le problème 2.1. Motivations Soit Σd (β, L), β = m + τ , m ∈ N, τ ∈ (0, 1], L > 0, l’espace de Hölder isotrope sur [0, 1]d i.e. l’ensemble des fonctions f à support compact [0, 1]d , m fois continûment différentiables dans chaque direction telles que pour (l) tous Z (l) = (x1 , . . . , xi , . . . , xd ) ∈ [0, 1]d , l = 1, 2,  m    ∂ f  (1)  ∂ m f  (2)      Lx (1) − x (2) τ , i = 1, . . . , d. Z − Z sup i i m  ∂x m  ∂xi (x1 ,...,xi−1 ,xi+1 ,...,xd ) i Soient l’ensemble

 f (x) dx = 1, f ∈ Σd (β, L), f ∞  S , Σ = f : Rd → R: f > 0,

S > 0,

(3)

Rd

et le sous-ensemble de Σ

 d Σ0 = f ∈ Σ: ∃fk : R → R, fk > 0, fk (xk ) dxk = 1, k = 1, . . . , d, f (x) = fk (xk ) , k=1

R

où f ∞ = supx∈[0,1]d |f (x)|. Soient les estimateurs   n 1 x − Xi , f¯n (x) = K nϑnd ϑn i=1

f¯n(0) (x) =

d

f¯kn (xk ),

x ∈ [0, 1]d ,

(4)

k=1

(k)

x −X où f¯kn (xk ) = nb1n ni=1 K∗ ( k bn i ), Xi(k) est la k-ième composante de Xi ; les fonctions K, K∗ sont Lipschit ziennes, à supports compacts sur Rd et R respectivement ; Rd ua11 · · · uadd K(u) du = 0 pour tout (a1 , . . . , ad ) ∈

A.F. Yode / C. R. Acad. Sci. Paris, Ser. I 340 (2005) 623–626

Nd tel que

d





1

= 0 pour tout l ∈ N tel que l  m ; les suites ϑn = C1 n 2β+d et 1 − bn = C2 n 2β+1 où C1 > 0, C2 > 0. L’estimateur f¯n est asmptotiquement optimal sur Σ et atteint la vi− β − β (0) tesse de convergence ϕn (Σ) = n 2β+d . L’estimateur f¯n atteint la vitesse ϕn (Σ0 ) = n 2β+1 sur Σ0 i.e. (0) lim supn→+∞ Rn (f¯n , Σ0 , ϕn (Σ0 )) < +∞. Nous remarquons que la qualité d’estimation ϕn (Σ) depend du facteur d’inflation d lié à la dimension. Pour de grandes valeurs de d, ϕn (Σ) tend très lentement vers 0. Cependant, sous l’hypothèse d’indépendance, la qualité d’estimation devient ϕn (Σ0 ) et on ne paie pas d’effet dimensionnel au moins asymptotiquement. De ce fait, nous considérons l’hypothèse H0 : f ∈ Σ0 . Une première idée pour résoudre ce problème est l’estimation adaptative (Lepski [4], Hoffmann [1], Hoffmann et Lepski [3]). La qualité d’estimation dépend dans ce cas de la densité inconnue i.e. de l’information si f ∈ Σ0 ou non. Cette information ne peut être obtenue à l’issue de l’observation. D’où la deuxième idée qui est le centre d’intérêt de ce travail et qui est basée sur les travaux de Lepski [4]. Elle consiste à tester H0 : f ∈ Σ0 et à utiliser de façon optimale la réponse du test pour améliorer la qualité d’estimation ϕn (Σ) si l’hypothèse est vraie sans que celle-ci soit dégradée quand l’hypothèse est fausse. i=1 ai

 m,

625

l R u K∗ (u) du

2.2. Risque minimax avec normalisation aléatoire Soit la famille de normalisations aléatoires     Ωn = ρn ∈ 0, ϕn (Σ) : ρn est mesurable par rapport à X n .

(5)

Pour tout ρn ∈ Ωn , pour tout f˜n ∈ Mn , introduisons le risque Rn(r) (f˜n , Σ, ρn ) = supf ∈Σ Efn (ρn−1 f˜n − f 2 )q . Du

point de vue mathématique, l’objectif est de trouver ρn∗ ∈ Ωn , fn∗ ∈ Mn tels que : lim supn→+∞ Rn (fn∗ , Σ, ρn∗ ) < +∞, la probabilité de l’événement {ρn∗  ϕn (Σ)} soit controlée sur Σ0 i.e. lim infn→+∞ inff ∈Σ0 Pfn {ρn∗  ϕn (Σ)} > 0 et fn∗ soit adaptatif. Soient 0 < δ < 1 et 0 < αn < 1 − δ pour tout n, une suite fixée. (r)

Définition 2.1 (Hoffmann et Lepski [3]). La caractéristique de ρn ∈ Ωn est la suite     xn (ρn ) = inf x ∈ 0, ϕn (Σ) : inf Pfn {ρn  x}  1 − αn . f ∈Σ0

La notion de caractéristique permet de comparer les normalisations aléatoires. Définition 2.2 (Hoffmann et Lepski [3]). La normalisation ρn∗ ∈ Ωn est dite αn -optimale par rapport à Σ0 si les conditions suivantes sont vérifiées (1) pour tout ρn ∈ Ωn telle que limn→∞ xn (ρn )/xn (ρn∗ ) = 0 alors lim infn→∞ inff˜n ∈Mn Rn(r) (f˜n , Σ, ρn ) = +∞, (2) il existe un estimateur fn∗ dit αn -adaptatif tel que lim supn→∞ Rn(r) (fn∗ , Σ, ρn∗ ) < +∞.

Ce nouveau concept a permis à Lepski [4] d’améliorer la qualité d’estimation d’un signal dans le modèle du bruit blanc gaussien unidimensionnel et à Hoffmann [1] celle du coéfficient de diffusion en dimension 1. Une extension de ce concept est proposée par Hoffmann et Lepski [3] et est utilisée pour la recherche de variables significatives dans le cas de la regression multiple. 2.3. Résultats

 2

−1 log( 2 )) 4β+d , C = i ), où h = C(n Introduisons l’estimateur à noyau défini par fˆn (x) = nh1 d ni=1 K( x−X n hn αn n C(β, d, K) est une constante strictement positive. Soient la statistique   n   2 x − Xi 1 dx, (6) K2 Tn = fˆn − f¯n(0) 2 − 2 2d hn n hn i=1 [0,1]d

626

A.F. Yode / C. R. Acad. Sci. Paris, Ser. I 340 (2005) 623–626

 d 2β 12β+d l’événement An = {Tn  (λϕn (αn ))2 } où ϕn (αn ) = (n−1 log α2n ) 4β+d , λ = 2 4β+d L04β+d Υ (0) ¯ ϕn (αn ) si An est vrai, si An est vrai, ∗ ∗ fn = fn ρn = ¯ ϕn (Σ) si Acn est vrai, si Acn est vrai, fn

β 4β+d

et posons

où Acn est le complémentaire de An , f¯n(0) et f¯n sont définis par (4). Fixons les constantes positives A∗ , B∗ et r ∗ telles que 4SK22 (4β + 3d + 4) 8SK∗ 2 (β + 2) , B∗ > , 2β + 1 (4β + d)

B∗ A∗ 4β + 3d + 4 β +2 − − , r ∗ < min 1, . 2 2(4β + d) 8SK2 2β + 1 SK∗ 22

A∗ >



Théorème 2.3. Soient q  2, d > 2, β > d4 et αn = On (n−r ). Alors ρn∗ est une normalisation aléatoire αn optimale et fn∗ est un estimateur αn -adaptatif par rapport à Σ0 . En particulier, lim sup Rn(r) (fn∗ , Σ, ρn∗ )  M∗ ,

(7)

n→∞

dq

βq

2βq

où M∗ = 2q L02β+d S 2β+d K22β+d + (λ(1 +



q 1/2 r∗ )

+

√1 2

d

6β+d

+ 2 4β+d L08β+d Υ

β 4β+d

)q .

Remarque 1. Les constantes A∗ , B∗ et r ∗ proviennent du problème de test résolu dans Yodé [5]. La condition β > d4 implique que nhdn → +∞, n → +∞ qui est une condition classique pour l’estimateur à noyau fˆn . La contrainte d > 2 apparaît dans la démonstration du Théorème 3.1 (Yodé [5]) et est liée au choix de la statistique (6) qui est construite selon le concept de risques minimax avec normalisations aléatoires (Lepski [4]). Nous croyons qu’un autre choix de test par exemple le test du χ 2 (Ingster [2]) ou en utilisant des techniques de calculs plus fines, on pourrait inclure le cas d = 2 dans nos résultats de test. Selon notre construction, la caractéristique de ρn∗ , d’après le Théorème 3.1 de Yodé [5], est xn (ρn∗ ) = ϕn (αn ) ϕn (Σ0 ). Théorème 2.4. Sous les conditions du Théorème 2.3, si αn = On (ϕn (Σ0 )) alors fn∗ est un estimateur adaptatif. q

Remarque 2. D’après (7), nous obtenons une interprétation statistique du type (2). Ainsi, si l’hypothèse H0 est vraie, nous obtenons une région de confiance plus fine que celle fournie par l’estimation minimax avec la probabilité plus grande que 1 − αn . Par définition, ρn∗  ϕn (Σ). Alors fn∗ est asymptotiquement optimal. En d’autres termes, nous conservons les acquis de l’estimation minimax. De plus, fn∗ peut être adaptatif. Remerciements Je remercie le Professeur Oleg V. Lepski pour son aide et ses encouragements. Références [1] M. Hoffmann, On estimating the diffusion coefficient : parametric versus nonparametric, Ann. Inst. H. Poincaré 37 (2001) 339–372. [2] Yu.I. Ingster, Asymptotically minimax testing of the hypothesis of independence, Zap. Nauchn. Seminar. LOMI 153 (1986) 60–72. Translation in J. Soviet. Math. 44 (1989) 466–476. [3] M. Hoffmann, O.V. Lepski, Random rates in anisotropic regression, Ann. Statist. 30 (2002) 325–396. [4] O.V. Lepski, How to improve the accuracy of estimation, Math. Methods Statist. 8 (1999) 441–486. [5] A.F. Yodé, Test d’indépendance non-paramétrique, C. R. Math. Acad. Sci. Paris 336 (11) (2003) 955–958.