Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

PAST FINAL EXAMINATION 4

STAT7055 Introductory Statistics for Business and Finance

Question 1 [21 marks]

There are many things which can affect the price of a second hand car.   Data was collected on 105 second hand car sales.  A multiple linear regression model was tted with sale price as the dependent variable  (Y),  and the odometer reading  (X1 ),  the odometer reading squared (X1(2)), the age (X2 ) and an indicator of whether the car has an automatic transmission (Z = 1 if the car has an automatic transmission and Z = 0 otherwise) as the independent variables. That is, the following model was tted:

Y = β0 + β1X1 + β2X1(2) + β3X2 + β4 Z + ∈

Note that sale price was measured in thousands of dollars (e.g., Y = 32 corresponds to a sale price of 32 000 dollars), odometer reading was measured in thousands of kilometres (e.g., X1  = 19.1 corresponds to 19 100 kilometres) and age was measures in years. The regression output, which includes some missing entries, is displayed below:

Predictor

Coef

SE Coef

T

p-value

Intercept

57.5629

5.7896

9.94

0.0000

Odometer

?

?

2 03

0 0455

Odometer2

?

?

1.25

0.2136

Age

0.1216

0.1441

0.84

0.4009

Z

0.1707

0.6040

0.28

0.7780


Analysis of Variance

Source

DF

SS

MS

F

p-value

Regression Residual Error

?

?

?

?

?

?

?

?

Total

?

5783.875

(a) [4 marks] The adjusted R2  for the model is equal to 0.8544375.  Test the overall

significance of the model. Clearly state your hypotheses and use a significance level of α = 5%.

(b) [2 marks] What do you conclude about the relationship between sale price and

odometer reading squared?  Clearly state your hypotheses and use a significance level of α = 5%.

(c) [2 marks] Test whether a different intercept is needed for cars that have an au- tomatic transmission. Clearly state your hypotheses and use a significance level of α = 5%.

(d) [3 marks] Test whether the expected change in sale price when the age increases by 1 year (all other variables held constant) is less than +0.15 (that is, less than positive 150 dollars).  Clearly state your hypotheses and use a significance level of α = 5%.

(e) [5 marks] Using the estimated regression model, the predicted sale price for a car

that is 4 years old, travelled 32 000 km (X1  = 32) and has a manual transmission is yˆ = 22.81569 and the predicted sale price for a car that is 7 years old, travelled 29 000 km (X1  = 29) and has an automatic transmission is yˆ = 26.22919. Based on this information, calculate the estimates βˆ1  and βˆ2 .

When people look to buy second hand cars, the odometer reading is generally the rst thing they check.  Given this, a simple linear regression was tted with sale price (Y) as the dependent variable and the odometer reading (X1 ) as the independent variable. The regression output is given below:

Predictor

Coef

SE Coef

T

Intercept Odometer

63.3897 1.2906

1.5936 0.0520

39.78 24.83

(f) [2 marks] Test the overall significance of the model. Clearly state your hypotheses

and use a significance level of α = 5%.

(g) [3 marks] The following sample statistics for the odometer readings are given: X¯1  = 30.19046 and sx(2)1   = 28.60936. Calculate a 90% prediction interval for the sale price of a car that has travelled 39 000 km (X1  = 39) given that the standard error of estimate is s= 2.835572.

Question 2 [21 marks]

The 100 metre sprint is one of the most watched events in any Olympic Games. Sprinters will often go to great lengths to improve their times, looking into factors such as the equipment they use and the coaches they hire. Listed in the table below are the personal best times for the 100 metre sprint for 27 sprinters that are in training. The 27 sprinters were chosen as follows:  For each of three shoe brands  (the Fast, the Quick and the Speedy brand), 9 sprinters who used that particular brand were randomly selected. The sample variances of the times for each shoe brand are also listed in the table.

Shoe Brand

Times

2

Fast

9.82   10.22   10.15     9.77   10.12

9.86

9.87 10.11   10.18   0.0313111

Quick

9 67     9 95   10 10   10 16     9 98

10 09

10 20

10 68

10 29

0 0753278

Speedy

9.69     9.75     9.49   10.03     9.66

10.24

10.04

9.87

10.01

0.0557528

(a) [6 marks] Test whether the mean time for sprinters using the speedy brand is more

than 0.2 seconds faster than for sprinters using the quick brand. Clearly state your hypotheses and use a significance level of α = 5%.  Clearly state any assumptions you have made (without testing them) when performing this test.

A one-way ANOVA was performed on this data, using shoe brand as the factor.  The partially filled ANOVA table is provided below:

Source        Sum of squares   Degrees of freedom   Mean squares   F

Shoe Brand

Error

0.3059

?


?

?


?

?


?

Total


?


?

(b) [2 marks] Calculate the sum of squares for error for the one-way ANOVA.

(c) [3 marks] Test whether there is a difference in the mean times between the three shoe brands. Clearly state your hypotheses and use a significance level of α = 5%.

For each shoe brand, suppose the rst 3 sprinters in the table were trained by coach Andy, the next 3 sprinters were trained by coach Bobby and the last 3 sprinters were trained by coach Carl. A two-way ANOVA was performed on the same data, using shoe brand and coach as factors. The partially lled ANOVA table is displayed below:

Source Sum of squares Degrees of freedom Mean squares F

Coach

?

?

?

?

Shoe Brand

?

?

?

?

Interaction

0.2970

?

?

?

Error

0.6781

?

?

Total

?

?

(d) [3 marks] Test whether there is an interaction between coach and shoe brand. Clearly state your hypotheses and use a significance level of α = 5%.

(e) [3 marks] Test whether there is a difference in the mean times between the three

shoe brands. Clearly state your hypotheses and use a significance level of α = 1%.

(f) [4 marks] Test whether there is a difference in the mean times between the three

coaches. Clearly state your hypotheses and use a significance level of α = 1%.

Question 3 [18 marks]

We have a room of 6 people, all of who are celebrating their birthday today.   Each person’s age (the age that they turned today) is listed below:

31, 18, 21, 21, 18, 29

(a) [3 marks] A study has shown that 70% of people younger than 22 are likely to

hold a party on their birthday, whereas only 22% of people older than 22 are likely to hold a party on their birthday.  For a person randomly selected from the room of 6 people, find the probability that they will be holding a birthday party today.

Suppose that we select a sample of 2 people from this room (without replacement).

(b) [2 marks] Find the probability that the sample of size 2 contains the oldest person

in the room.

(c) [2 marks] Find the probability that the oldest person in the sample of size 2 is younger than 24 years old.

(d) [4 marks] Determine the sampling distribution of the age of the oldest person in the sample of size 2.

(e) [3 marks] Calculate the expected value and variance of the sampling distribution

of the age of the oldest person in the sample of size 2.

(f) [4 marks] Suppose we took 10 samples of size 2, without replacement, from the

room of 6 people (but before each new sample was taken, the previous sample was returned to the room). Find the probability that in more than 7 samples the oldest person in the sample was older than 30.

Question 4 [21 marks]

Let X and Y be independent continuous random variables with the following probability density functions:

4

9 ,

f (x) = x + ,

2

0 ≤ x < 1

1 ≤ x < 2

2 ≤ x 3

and       f (y) = ,y(一)y

0 ≤ y < 1

1 ≤ y 2

(a) [3 marks] Find the probability that X is between 1.2 and 2.2.

(b) [3 marks] Find the probability that X is between 1.2 and 2.2, given that it is

larger than 1.5.

(c) [3 marks] Find the probability that Y is between 0.7 and 1.1 or between 1.2 and 1.9.

(d) [3 marks] Find the probability that X is between 1.2 and 2.2 or Y is between 0.7 and 1.1.

(e) [2 marks] Find the probability that X  is between  1 and  1.9,  given that Y is

between 0.7 and 1.1.

For parts (f) and (g), we can assume that µx  = E(X) = and σx(2)  = V (X) = 0.69204.

(f) [3 marks] Find the probability that, from a sample of size n = 50 taken from the

distribution of X, the sample mean lies between 1.2 and 1.5.

(g) [4 marks] Suppose a sample of size 50 taken from the distribution of Y produced the following sample statistics: Yi  = 44 and Yi 2  = 45.08.  Based on this data, test whether the expected value of Y is less than the expected value of X . Clearly state your hypotheses and use a significance level of α = 5%.