Estimation adaptative de la densité spectrale d'un processus gaussien faiblement ou fortement dépendant

Estimation adaptative de la densité spectrale d'un processus gaussien faiblement ou fortement dépendant

C. R. Acad. Sci. Paris, t. 330, Série I, p. 733–736, 2000 Statistique/Statistics (Probabilités/Probability Theory) Estimation adaptative de la densit...

143KB Sizes 0 Downloads 19 Views

C. R. Acad. Sci. Paris, t. 330, Série I, p. 733–736, 2000 Statistique/Statistics (Probabilités/Probability Theory)

Estimation adaptative de la densité spectrale d’un processus gaussien faiblement ou fortement dépendant Philippe SOULIER Université d’Evry–Val d’Essonne, 91025 Evry cedex, France Courriel : [email protected] (Reçu le 21 octobre 1999, accepté le 13 mars 2000)

Résumé.

Cette Note présente une méthode d’estimation non paramétrique de la densité spectrale d’un processus gaussien fractionnaire, qui s’écrit f (x) = |1 − eix |−2d f ∗ (x), où −1/2 < d < 1/2 et f ∗ est strictement positive. Nous montrons que la vitesse d’estimation ne dépend pas de d mais seulement de la régularité de f ∗ et donc est la même en forte et en faible dépendance. Lorsque les coefficients de Fourier de f ∗ décroissent exponentiellement, nous établissons l’asymptotique exacte du risque minimax. L’estimateur de régression sur le logpériodogramme réalise les vitesses minimax sur certaines classes fonctionnelles et possède des propriétés d’adaptativité lorsque la régularité de f ∗ est inconnue.  2000 Académie des sciences/Éditions scientifiques et médicales Elsevier SAS

Adaptive estimation of the spectral density of weakly or strongly dependent Gaussian process Abstract.

This Note presents an estimator of the spectral density of a fractional Gaussian process, f (x) = |1 − eix |−2d f ∗ (x), where −1/2 < d < 1/2 and f ∗ is positive. The rate of convergence of an estimator of f is shown not to depend on d but only on the smoothness of f ∗ , and thus is the same for a long range and a short range dependent process. When the Fourier coefficients of f ∗ decrease exponentially fast, an exact constant is obtained. The log-periodogram estimator is shown to achieve the best possible rate of convergence when the smoothness of f ∗ is known, and to have adaptivity property when this smoothness is unknown.  2000 Académie des sciences/Éditions scientifiques et médicales Elsevier SAS

1. Introduction Soit (Xt )t∈Z un processus gaussien dit fractionnaire dont la densité spectrale s’écrit −2d f (x) = 1 − eix f ∗ (x), où d ∈ ] − 1/2, 1/2[ et f ∗ est une fonction strictement positive et bornée sur [−π, π]. Le processus est faiblement dépendant si d = 0 et fortement dépendant si d > 0. Si d < 0, la fonction d’autocovariance est sommable, mais certaines propriétés du processus sont semblables à celles des processus à longue Note présentée par Paul D EHEUVELS. S0764-4442(00)00252-4/FLA  2000 Académie des sciences/Éditions scientifiques et médicales Elsevier SAS. Tous droits réservés.

733

Ph. Soulier

portée. Un modèle fractionnaire paramétrique courant est le modèle ARFIMA(p, d, q) pour lequel f ∗ (x) = et sans racines dans un disque |P (eix )/Q(eix )|2 , où P et Q sont des polynômes sans racines communes √ P∞ 0 centré en zéro et de rayon eβ pour un réel β 0 > 0. On a alors log(f ∗ ) = j=0 θj hj avec h0 (x) = 1/ 2π, √ hj (x) = cos(jx)/ π, j > 1, et pour tout β < β 0 , ∞ X

θj2 e2βj < ∞.

(1)

j=0

La classe des modèles ARFIMA est étendue à partir deP l’équation (1), pour β > 0, 1/2[ et L > 0,  Pδ∞∈ [0, ∞ 2 2βj θ h (x) , |d| 6 δ, θ e 6 L2 . par la classe A(β, L, δ) = f : f (x) = |1 − eix |−2d exp j j j=0 j=0 j ∗ La régularité de la fonction f a un rôle fondamental. Si d = 0, elle détermine la rapidité de la décroissance de la fonction d’autocovariance du processus. Si d 6= 0, la décroissance de la fonction d’autocovariance est déterminée par d, mais les propriétés d’estimation de f sont encore déterminées par f ∗ . En particulier, Giraitis, Robinson et Samarov [6] et Iouditsky, Moulines et Soulier [8] ont montré que la vitesse d’estimation de d ne dépend que de la régularité de f ∗ . Un estimateur de f doit donc tenir compte de cette régularité, et comme elle est en général inconnue, il doit être adaptatif par rapport à cette régularité. L’estimation adaptative de la densité spectrale a été étudié entre autres par Golubev [5], Efromovich [3] et Comte [2], pour des processus gaussiens faiblement dépendant, et relativement au risque quadratique sur L2 ([−π, π], dx). Ce critère n’est pas adapté à la forte dépendance puisque la densité spectrale n’est pas de carré intégrable si d > 1/4. Le critère de risque quadratique logarithmique est pertinent pour cette modélisation. Soit Kn une suite croissante d’entiers et soit yk = (2k − 1)π/(2Kn ), 1 6 k 6 Kn . On définit PKn 2 uk , et l’on identifie une pour tout vecteur u = (u1 , . . . , uK )T de RKn la norme kuk2n = 2πKn −1 k=1 fonction φ au vecteur (φ(y1 ), . . . , φ(yKn ))T . En appliquant l’inégalité de Van Trees (cf. [4]), on obtient la borne inférieure minimax suivante. T HÉORÈME 1. – Soient β > 0, L > 0 et δ ∈ [0, 1/2[ .

2   n Ef ˆ sup `n − ` n > 2π/β, lim inf inf n ˆ `n f ∈A(β,L,δ) log(n) où l’infimum porte sur tous les estimateurs `ˆn de ` = log(f ) construits sur une observation X1 , . . . , Xn d’un processus stationnaire (Xt )t∈Z de densité spectrale f . 2. Régression sur le log-périodogramme 1 Pn ikx 2 , où (hk ), 1 6 k 6 n, est une Le périodogramme fenêtré est défini par In (x) = 2πn k=1 hk Xk e suite de nombres complexes. Si l’on choisit hk = 1, 1 6 k 6 n, on retrouve le périodogramme ordinaire. Soient xk = 2kπ/n, 1 6 k < n/2 les fréquences de Fourier. Si le processus Xt est un bruit blanc gaussien, lorsque l’on a choisi hk = 1, les variables In (xk ) sont i.i.d. de loi exponentielle. Cette propriété reste vraie asymptotiquement pour un processus faiblement dépendant, mais pas pour un processus fortement dépendant. Une étude précise de la structure de dépendance de la suite (In (xk ))16k 1 (fixé) par : ( Pmk 1 6 k 6 [(n − m)/2m], pour le périodogramme ordinaire ; t=m(k−1)+1 In (xt ), ¯ In,k = Pmk h t=m(k−1)+1 In (x2t ), 1 6 k 6 [(n − 2m)/4m], pour le périodogramme fenêtré.

734

Estimation adaptative de la densité spectrale

Pour unifier les notations, on notera Kn = [(n − m)/2m] pour le périodogramme ordinaire et Kn = [(n − 2m)/4m] pour le périodogramme fenêtré. Notons εn,k = log(I¯n,k /f (yk )) − ψ(m), où ψ est la fonction digamma, et εn = (εn,1 , . . . , εn,Kn )T . Si le processus (Xt ) est un bruit blanc gaussien les variables εn,k sont indépendantes, centrées et de variance ψ 0 (m). Soit g(x) = −2 log(|1 − eix |). ˆ + Pp θˆj hj , où d, ˆ θˆ0 , . . . , θˆp−1 sont les estimateurs L’estimateur de ` = log(f ) est défini par `ˆp,n = dg j=0 des moindres carrés de d, θ0 , . . . , θp−1 :  ˆ θˆ0 , . . . , θˆp−1 = arg d,

min

¯ θ¯0 ,...,θ¯p−1 d,

Kn  X

¯ k) − log(I¯n,k ) − ψ(m) − dg(y

p−1 X

2 θ¯j hj (yk ) .

j=0

k=1

Cet estimateur est linéaire et explicite par rapport aux “observations” Yn,k = log(I¯n,k ) − ψ(m). Soit Πp,n le projecteur orthogonal sur le sous-espace Hp de RK engendré par les vecteurs g, h0 , . . . , hp−1 , et soit Yn = (Yn,1 , . . . , Yn,Kn )T . Alors `ˆp,n = Πp,n Yn = Πp,n ` + Πp,n εn , d’où

2     `p,n − ` n = k` − `p k2n + Ef kΠp,n εn k2n , Ef ˆ où `p = Πp,n ` est la projection orthogonale de ` sur Hp . La quantité k` − `pk2n est entièrement déterministe. C’est une version discrétisée du carré de la norme L2 de la projection de ` dans le sous-espace de L2 ([−π, π]) (dont la norme sera notée k · k2 ) orthogonal à l’espace engendré par les fonctions g, h0 , . . . , hp−1 : P∞ −1 2 ∞ ∞ X X θj j=p j 2 2 P θj − 6 θj2 . k` − `p k2 = ∞ −2 j j=p j=p j=p La vitesse d’estimation dépend donc de la décroissance des coefficients θj . Les variables εn,k n’étant ni centrées ni décorrélées (même en dépendence faible), pour expliciter leur structure de dépendance, il est nécessaire d’introduire les classes fonctionnelles suivantes. Soient M > 1 et δ ∈ [0, 1/2[ . Soit G(M ) la classe des fonctions paires 2π-périodiques vérifiant maxx∈[−π,π] |u(x)| 6 M, minx∈[−π,π] |u(x)|

maxx,y∈]0,π] |u(x)−u(y)| (x∧y)|x−y|

6 M, minx∈[−π,π] |u(x)|  et soit L(M, δ) = f : f (x) = |1 − eix |−2d f ∗ (x), f ∗ ∈ G(M ), |d| < δ . On a alors sur cette classe une expression asymptotique de la variance du terme stochastique kΠp,n εn k2n (cf . [10], théorème 2). K   sup Ef kΠp,n εn k2n − 2πψ 0 (m) = o(1), sup 16p6K f ∈L(M,δ) p où le terme o(1) est une suite tendant vers 0 ne dépendant que de M et δ. L’équation de balance biaisvariance et l’inclusion A(β, L, δ) ⊂ L(M, δ) pour M > (1 + πL)e2L montrent que pn = [log(n)/2β] donne un estimateur asymptotiquement minimax sur la classe A(L, β, δ). T HÉORÈME 2. – Soient β > 0, L > 0 et δ ∈ [0, 1/2[ . L’estimateur construit sur le périodogrammme ordinaire, avec pn (β) = [log(n)/2β], est asymptotiquement minimax :

2   n Ef ˆ sup `pn (β),n − ` n 6 2πmψ 0 (m)/β. lim sup n→∞ f ∈A(β,L,δ) log(n) Puisque mψ 0 (m) tend vers 1 lorsque m tend vers l’infini, ce théorème montre aussi que la borne inférieure du théorème 1 est exacte. C OROLLAIRE 1. – Soient β > 0, L > 0 et δ ∈ [0, 1/2[ . On a

2   n Ef ˆ sup lim inf `n − ` n = 2π/β. n→∞ `ˆn f ∈A(β,L,δ) log(n)

735

Ph. Soulier

3. Estimation adaptative L’estimateur proposé ci-dessus est irréalisable lorsque l’on ne connaît pas la régularité de f ∗ . Le problème considéré ici étant un problème de régression (avec bruit non i.i.d.), on peut utiliser l’approche de Birgé et Massart [1]. Soit pˆ(κ) l’entier minimisant le contraste pénalisé, il vient

2 2πψ 0 (m)p . Sp,n (κ) = Yn − `ˆp,n n + κ K Pour κ = 2, on obtient le CL de Mallows, qui est un estimateur sans biais de Rn (p) = Ef [k` − `ˆp,n k2n ]. Moulines et Soulier [10] ont montré que si le nombre de coefficients θj non nuls est infini, le choix de p(2))/ inf 16p6K Rn (p) converge en probabilité vers 1. Dans pˆ(2) est asymptotiquement optimal, i.e. Rn (ˆ le cas de la régression avec bruit i.i.d., en modifiant la pénalisation, Birgé et Massart [1] ont obtenu une borne pour le risque de l’estimateur pénalisé. Cette méthode est appliquée ici à l’estimateur de régression sur log-périodogramme fenêtré. T HÉORÈME 3. – On considère l’estimateur de régression sur le log-périodogramme fenêtré. Il existe un κ > 0 tel que pour tous M > 0, δ ∈ [0, 1/2[ , f ∈ L(M, δ), on ait, pour n > N (M, δ, κ) :

2    − ` n 6 4 `p(κ),n inf 3 k` − `p k2n + κ2πψ 0 (m)p/K + C(M, δ)/n. Ef ˆ ˆ 16p6K/ log (n)

La preuve de ce théorème repose sur une inégalité exponentielle obtenue dans [8]. L’estimateur de logpériodogramme régression pénalisé réalise la vitesse optimale dans certaines classes, notamment dans la classe analytique. C OROLLAIRE 2. – Soient 0 < β∗ < β ∗ , L∗ > 0 et δ ∈ [0, 1/2[ . On a

2   n Ef ˆ sup sup − ` n 6 C(β ∗ , L∗ ). `p(κ),n lim sup sup ˆ n→∞ β∗ <β<β ∗ 0
Références bibliographiques [1] Birgé L., Massart P., From model selection to adaptive estimation, in: Pollard D. et al. (Eds.), Festschrift for Lucien Le Cam, Springer-Verlag, New York, 1997, pp. 55–87. [2] Comte F., Adaptive estimation of the spectrum of a stationary Gaussian sequence, Prépublications du laboratoire de probabilités et modèles aléatoires, Université Paris-VI, 1999. [3] Efromovich S., Data-driven efficient estimation of the spectral density, JASA 92 (442) (1998) 762–769. [4] Gill R., Levit B., Applications of the van Trees inequality: a Bayesian Cramer–Rao bound, Bernoulli 1 (1995) 59–79. [5] Golubev G.K., Nonparametric estimation of smooth spectral densities of Gaussian stationary sequences, Theory Probab. Appl. 38 (4) (1993) 630–639. [6] Giraitis L., Robinson P., Samarov A., Rate optimal semiparametric estimation of the memory parameter of the Gaussian time series with long range dependence, J. Time Series Anal. 18 (1997) 19–61. [7] Hurvich C., Moulines E., Soulier Ph., The FEXP estimator for non-stationary processes, Preprint, 1999. [8] Iouditsky A., Moulines E., Soulier Ph., Adaptive estimation of the fractional differencing coefficient, Prépublication 112 de l’Université d’Evry Val–d’Essonne, 1999. [9] Moulines E., Soulier Ph., Broad band semi-parametric estimation of the long range coefficient, Ann. Statis. 27 (4) (1999) 1415–1439. [10] Moulines E., Soulier Ph., Data-driven order selection for long range dependent time series, J. Time Series Anal. 21 (2) (2000) 193–218.

736