Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

QBUS2810

Statistical Modelling for Business

In-Semester Test Practice

Semester 2, 2022

These questions require short answers, say up to 0.5 page, but not essays. Make your answers as objective and concise as possible, while still fully answering the question.

Q1 A poll constructed a 95% CI of (0.63,0.73) for the proportion of NSW residents that support the continuation of the lockout laws. What is the accurate interpretation of this CI?

Q2 Why do we need an error term in a regression model?

Q3 Why in OLS for the SLR model is the sample average error,  =   ei = 0?

Q4 In the direct marketing example, would the variable location cause OVB regarding the effect of Salary on Amount Spent?

Q5 In the direct marketing example, would the variable years of education (not in the data) cause OVB regarding the effect of Salary on Amount Spent?

Question 6

These questions require short answers, say up to 0.5 page, but not essays. Make your answers as objective and concise as possible, while still fully answering the question.

(a) The Capital Asset Pricing Model (CAPM) is usually written as:

Rt− Rf,t = α + β(RM,t− Rf,t) + et ,

where Rt is the asset return, Rf,t is the risk free rate of return, and RM,t is the market return, all at time t.

Explain why the slope β is said to capture market risk” .

(b) A CAPM regression is fit where the response variable is the Australian All Ordinaries index (AORD) returns, and the response is the daily return on BHP stock.  Consider the variables:

• (i) the daily return on another mining company: Rio-Tinto;

• (ii)  Season of year:  three dummy variables representing the seasons of the year: Summer, Spring, Autumn.

Discuss whether each of these two variables could cause omitted variable bias here, and then explain why or why not (for each).

(c) A data set collected by Telstra has response variable the number of months a customer has been with Telstra, while the main explanatory variable of interest is the number of customer interaction events Telstra has had with the customer (e.g.  texting them to remind them to recharge, etc). Consider the variables:

• (i) the age of the customer;

• (ii) the number of hours the customer uses their device each day, on average.

Discuss whether each of these two variables could cause omitted variable bias here, and then explain why or why not (for each).

Question 7

A recent study which was widely written about in the media examined the relationship between the number of followers an individual has on Twitter and grey matter density in the areas of the brain associated with social perception and associative memory.  Below we run a regression using data from this study, where GMdensity is a normalised z-score of grey matter in relevant regions of the brain.

OLS  Regression  Results                                                        ==============================================================================

Dep .  Variable:

Twfollows

R-squared:

0 .190

Model:

OLS

Adj .  R-squared:

0 .169

Method:

Least  Squares

F-statistic:

8 .936

Date:

 

Prob  (F-statistic):

0 .00488

Time:

 

Log-Likelihood:

-260 .14

No .  Observations:

40

AIC:

524 .3

Df  Residuals:

38

BIC:

527 .7

Df  Model:

1

 

 

Covariance  Type:

nonrobust

 

 

============================================================================== coef        std  err                    t            P>|t|            [0 .025            0 .975]

------------------------------------------------------------------------------


Intercept GMdensity


366 .6449

82 .4488


26 .347

27 .581


13 .916

2 .989


0 .000

0 .005


313 .309

26 .614


419 .981

138 .284


==============================================================================

 


Omnibus:                                                1 .388

Prob(Omnibus):                                    0 .500

Skew:                                                      0 .009

Kurtosis:                                              2 .224


Durbin-Watson:

Jarque-Bera  (JB):

Prob(JB):

Cond .  No .


0 .340

1 .004

0 .605

1 .12


==============================================================================

 

(a) Write out the estimated regression equation, in a manner that includes the estimated coefficients, standard errors, and R2 .

(b) Interpret the R2  value.

(c) Test whether there is a relationship between grey matter density and number of Twitter followers.  Write the details for the test, show how the test statistic is calculated, find the p-value in the output, and carefully state the conclusion.  Note that the assumptions have not been provided, so you have to list them and assess them, as best you can.

(d) Calculate and then interpret a 99% confidence interval for the slope.  The critical value is 2.71 (you need to specify where this number comes from).

(e) List one potential variable that could cause omitted variable bias in this analysis and explain why it could.

Question 8

Consider the population SLR model:

Yi = β0 + β1Xi + εi

and an observed, random sample of data  (y1 ,x1 ), . . . , (yn,xn) from that model.   An OLS regression is run on this data.

(a) Show that R2  must always increase when adding an extra explanatory variable to the SLR.

(b) Show that the SER does not always decrease when adding an extra explanatory variable to the SLR.

(c) Show that the OLS estimate for the slope βˆ1  is an unbiased estimator of β 1 .

(d) Show that, conditional upon the observed X values, the OLS estimate for the intercept βˆ0  is also an unbiased estimator of β0 .

(e) Show that Σai = 0 and Σaixi = 1, when ai =  and Sx(2) is the sample variance

of the observed data for x.

Question 9

Taken from Q9, page 481 Berenson et al (BUSS1020 text)

Web designers conducted an A/B test regarding a new call to action” design on their website. Visitors to the page were randomly assigned to see either the Original or the New call to action button on the website, then recorded as to whether they clicked on it or not.  The main question of interest is: Is there a difference in click rates between the two designs?      The observed contingency table for this dataset is given below.

Clicked

Button

Yes

No

Total

Old

351

??

3642

New

485

??

3556

Total

112

??

??

(a) Fill in the missing values in the contingency table.

(b) Python calculates the expected values as:  (422.994, 3219.006) for row 1, and (413.006, 3142.994) for row 2. Verify this calculation for the (1,1) cell (i.e. ”Yes” and Old”), showing all working.

(c) Are the conditions for Pearson’s chi-squared test satisfied in this data? Explain.

(d) Pearson’s chi-squared test is conducted, giving a test statistic of 27 .67 and a p-value of

1.43 × 10 7 . Formally write out this test, from hypotheses to conclusion, giving all details.

(e) Fisher’s exact test is conducted, giving a test statistic of 0 .675 and a p-value of 1.35×107 . Formally write out this test, from hypotheses to conclusion, giving all details. Also, interpret the odds ratio of 0.67 in plain English.

(f) Describe in plain English, business context terms what the data and analysis above have revealed about the Original and New call to action buttons.

Question 10

Taken from Q37, page 499 Berenson et al (BUSS1020 text)

Two samples of the time taken to fix internet problems after they are reported are collected: one sample from each of two locations. The sample size is 20 in each location.                      The observed contingency table for this dataset is given below, where Below” means below the overall median and Above” means above it.

Time

Location

Below

Above

Total

1

10

10

20

2

10

10

20

Total

20

20

40

(a) Calculate the expected value for the cell where Location = 2 and Above” the median.

(b) The median test is conducted. It has a test statistic of precisely 0. How is this possible? Explain what has happened here.

(b) The p-value from the median test is 1.0.  Formally write out this test, from hypotheses to conclusion, giving all details.

(c) The Mann-Whitney test is conducted, with a test statistic of 224.5 and a p-value of 0.516. Formally write out this test, from hypotheses to conclusion, giving all details.

(d) A two-sample t-test is conducted, with a test statistic of 0.354 and a p-value of 0.725. Formally write out this test, from hypotheses to conclusion, giving all details.

(e) Which test do you think is the most valid to use in this case? Explain why.