Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

School of Mathematics & Physics

EXAMINATION

Semester One Final Examinations, 2018

STAT7301 Mathematical Statistics

1.   (a) A point is selected at random on the unit interval, dividing it into two pieces with total length 1. Find the probability that the ratio of the length of the shorter piece to the length of the longer piece is less than 1/4.   [3 marks]

(b)  Suppose X1  and X2  are two iid normal N(u,a2 ) variables. Define

V = X1 + X2 ,    W = (X1 − X2 )2 .

Are random variables V and W independent? Mathematically justify your answer.      [3 marks]

(c) Let C denote the unit circle in the plane, i.e.,

C ={(x,y) | x2 + y2   1} .

Suppose the two-dimensional random vector (X,Y) is uniformly distributed within C, i.e., the joint density of (X,Y) is

(  b,     (x,y) C

( 0,    otherwise

for some constant b > 0.  Are random variables X and Y independent?  Mathematically justify your answer (Hint: You can argue using marginal densities).                      [2 marks]

(d) Describe how you would generate samples from the joint distribution in part (c).  [2 marks]

2.  Consider the polynomial regression model

Yi  = β0 + β1 xi + β2 xi(2) + · · · + βd xi(d) + εi ,    i = 1, . . . ,n ,

where {εi }  N(0,a2 ), x1 , . . . ,xn  are distinct and ixed, and β0 , . . . ,βd ,a2  are the unknown parameters.  Deine     = (β0 ,β1 , . . . ,βd )T , Y = (Y1 , . . . ,Yn )T  and e = (ε1 , . . . ,εn )T   (note:  vT denotes the transpose of vector v). Recall also the general formulation of a normal linear model, i.e., Y = X   + e, where X is the design matrix.

(a)  Show that the polynomial regression model is a particular instance of the normal linear model, and give the corresponding design matrix X.                   [2 marks]

(b)  Give the maximum likelihood estimator (MLE), ~ , of     in terms of the design matrix X and the data Y .      [2 marks]

(c)  Show that ~ is an unbiased estimator of   , and ind its covariance matrix (Hint: You may wish to use the facts that for any two matrices A, B, we have (AB)T  = BTAT , and for any invertible matrix C, we have (C1 )T  = (CT )1 ).                      [3 marks]

(d)  Show that the MLE of a2  is 2  = 1n |Y X~ |2  .                     [3 marks]

3. Let X1 , . . . ,Xn  be a random sample from the Gamma(α,1/a) distribution with α known.  In other words, the probability density function is given by

1T(α)aαxα  1 e   xe .

(a)  Show that the family of densities Gamma(α,1/a) parameterized by a > 0 forms an exponen- tial family.                   [2 marks]


(b) Find a sucient statistic for a .

(c) Find , the maximum likelihood estimator of a .

(d) Determine whether the variance of  attains the Cramer-Rao lower bound.



 4. Let x1 ,x2 , . . . ,xn  be iid observations from a Poisson distribution Poi(λ) with pmf


λ    xeλ

where λ > 0 is an unknown parameter. Consider a prior distribution on λ given by λ ~ Gamma(α,β) with pdf

β α λα 1 e βλ

(a)  Show that the posterior pdf of λ given x = (x1 ,x2 , . . . ,xn ) is

f(λ| x) λ xi +α 1 e λ(n+β)  ,

and identify its distribution.

(b) Is the prior distribution λ ~ Gamma(α,β) conjugate for this problem?

(c)  Show that the mean of any Gamma(a,b) distribution is given by a/b.


(d) Using parts (a), (b) and (c), or otherwise, show that the posterior mean of λ given x is

E(λ| x) =                                                          [2 marks]

(e)  Give an interpretation of the posterior mean by completing the following sentence:

“The efect of the prior on the posterior mean of λ is like . . . ”                            [2 marks]

5.  Consider a bivariate distribution with joint pdf given by

f(x,y) = cexp { 12(x2 y2 + x2 + y2 8x 8y)}  ,    x,y R,

where c is a normalizing constant.

(a) By completing the square, or otherwise, show that the conditional distribution of X given

Y = y is Gaussian with mean 4/(1 + y2 ) and variance 1/(1 + y2 ).                          [3 marks]

Similarly, it can be shown that the conditional distribution of Y given X = x is Gaussian with mean 4/(1 + x2 ) and variance 1/(1 + x2 ).

(b) Using the above results, or otherwise, describe how you could sample from the joint distri-bution f(x,y).                                               [4 marks]

6. A survey of 120 students on their Facebook usage levels returned the following counts:

Very often   Occasionally   Never   Total  62                  33              25         120

Let p1 ,p2  and p3  = 1 − p1  − p2  be the underlying proportions of using Facebook very often”, “occasionally” and never”, respectively.

(a) Assuming the data come from a multinomial distribution, show that the prior (p1 ,p2 ) ~ Dirichlet(α1 ,α2 ,α3 ) with hyperparameters α 1 ,α2 ,α3  > 0 ,

is conjugate for this problem.  [Recall: the joint pdf of (p1 ,p2 ) ~ Dirichlet(α1 ,α2 ,α3 ) is

f(p1 ,p2 )  ∝  p1(α)1 1p2(α)2 1 (1 p1 p2 )α3 1  ,    0 p1 ,p2   1.]          [3 marks]

(b) It is given to you that

\0 1 q1  q2(λ)2 1 (1 q1  q2 )λ3 1 dq2    ∝  (1 q1 )λ  +λ23  1  .

Use this to show that if (q1 ,q2 ) ~ Dirichlet(λ1 ,λ2 ,λ3 ) then the marginal distribution of q1

is Beta(λ1 ,  λ2 + λ3 ).                                                                                                 [3 marks]

(c) Using part (b), or otherwise, show that the marginal posterior for p1  is

p1 |data ~ Beta(α1 + 62, α2 + α3 + 33 + 25) .

[3 marks]

(d)  Before collecting the above data, Alan observed that out of his 10 closest friends, 5 used Facebook very often”, 3 used Facebook occasionally”, and 2 “never” use Facebook.  To relect this prior information, Alan chose hyperparameter values α 1  = 5,α2  = 3 and α3  = 2.

In light of the above dataset on 120 students, how should Alan update his belief about the prevalence p1  of very often” Facebook usage?  You may ind the following expression for the posterior mean of p1  useful:

E(p1 | data) =

α 1 + 62

α 1 + α2 + α3 + 120 .

[2 marks]