Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

MGEC11H3  Introduction to Regression Analysis

Final Exam, Winter 2021

Instructions:

Aids Allowed: R, Notes, Class Resources

Total number of pages (including the cover page): 4

Total Points: 100

For general technical support, here is the IT student helpdesk info:

•    PHONE: 416.287.4357 (HELP), EMAIL:student-helpdesk@utsc.utoronto.ca.

•  You have 2 hours to complete the exam. You should be able to answer all the questions in around 1 hour and 45 mins. An extra 15min is provided to compile and upload your RMD and pdf to Quercus.

•  Answer all questions. There are 4 questions in this exam.

•   For questions that require an estimation in R, you need to show both codes and the answers to get marks.

•   Point form is acceptable.

•   Create a single RMD file to answer all the questions and upload the compiled file and your RMD file to Quercus before the end of the exam.

•   Make your document readable, with comments for the code, and titles for the output. This is especially important for cases where your answer may be incorrect -- you may still earn partial credit if your code is understandable.

Good luck!

Question 1. [10] True/False/Uncertain.

Choose True, False or Uncertain for each of the following statements and briefly explain why. No marks would be given without an explanation.

a.    [5] We use 100 observations of [x,y] to conduct an OLS estimation of the following simple linear regression model:

y = F0  + F1 x + e .

Denote the R-square as R1.  Now we duplicate the dataset and rerun the regression. Denote the R-square as  R2.  It  must  be that  R2=2×R1.  In other words, the  R-square would double  if we duplicate the data and run the same regression.

b.    [5] Suppose we have a dataset with two variables x and y. We regress y on x and get coefficient in front of x as F̂ . Next, we regress x on y and get coefficient in front of y as   . It is possible for F̂ and   to have opposite signs.

Question 2. [20]

In this question, we study the optimal school size, using the SAT score of a student as the outcome variable. In particular, we are interested in the following multiple linear regression model:

sat = F0  + F1 ℎsize + F2 ℎsize2  + F4 wℎite + F5 black + F6female + u ℎsize represents the size of the graduation class and the unit is in 100s.

For (a) to (c), suppose assumptions MLR1 to 6 hold.

a.    [2] Use data gpa2’ from the library wooldridge’ to estimate the above multiple linear regression model.

b.    [6] Based on your estimation in (a), what is the optimal high school class size? Hint: find the value of ℎsize that maximize  + ℎsize + ℎsize2 .

c.    [4] Test the null hypothesis F4  = F5 against the alternative F4  ≠ F5  using 1% significance level. Interpret the result.

d.    [4] Conduct the BP test to test whether the error terms are heteroskedastic or not using 1% significance level.   If your conclusion is that the error terms are heteroskedastic, adjust your hypothesis testing in (c) and update your conclusion of the hypothesis testing result.

e.    [4] Propose one omitted variable that would bias the estimation. You need to explain why it affects one’s SAT score and why it correlates with one of the explanatory variables. You don't need to predict the direction of the bias caused by this omitted variable.

Question 3. [38]

In this question, we study the probability that a household responds with a contribution on the most recent mailing sent by a charitable organization (Tespond = 1) and how it is affected by the number of mails sent from the charity (mailsyeaT). We start with a linear probability model:

Tespond = F0  + F1mailsyeaT + F2 avgift + F3 weekslast + u

We control for the average of past gifts sent from this household, avgift, and the number of weeks since the last time the charity got a response from this household (weekslast). These two control variables represent the households’ willingness to contribute to charity.

a.    [4] Discuss whether assumption MLR 6 (normality) holds or not for this multiple linear regression model. Explain why.

b.    [4] Discuss whether assumption MLR 5 (homoskedasticity) holds or not for this multiple linear regression model. Explain why.

c.    [6] Based on your answers in (a) and (b), conduct an OLS estimation using data charity’ from library  wooldridge’ .  Next,  conduct  a  t-test  for  the  null  hypothesis  of F1  = 0  against  the alternative  of F1  ≠ 0 .  Use  1%  significance  level  for  this  test.  You  also  need  to  state  the assumptions required for the validity of this t-test.

d.    [4] Based on your estimation in (c), holding all the other factors constant, if we increase the number of mails sent from the charity by one-standard-deviation, how does the probability that the household respond to a charity with gift change?

e.    [6] List three disadvantages of the linear probability model compared to a logit model.

f.     [4] Estimate the following logit model and report the average marginal effect of number of mails per year.

P(Tespond = 1|X) = Φ(F0  + F1mailsyeaT + F2 avgift + F3 weekslast)

g.    [4] Test the joint significance of avgift and weekslast using the likelihood ratio test. Use 1% significance level for this test.

h.    [6] For a household donating an average amount of gift (you need to calculate the average of avgift to find out the value) and responded 50 weeks ago (weekslast = 50), if they receive 4 mails per year instead of 2, how does their probability to respond with gift change?

Question 4. [32]

In this question, we study whether ones appearance affects her labor market outcome.   Use data beauty for this question.

In particular, we are interested in the following simple linear regression model:

log (wage) = F0  + F1lOOkS + u,

where lOOkS is a score of one’s look that ranges in between 1 to 5 and lOg(wage) corresponds to lwage in the dataset.

a.    [3] Conduct an OLS estimation of the above simple linear regression model and interpret your

estimation result  F̂1 and R-squared.

Diagnostics of MLR 4.

b.    [3] Suppose workers in the service sector are more likely to have an above average appearance. Moreover, suppose that service sector workers tend to have a lower wage, discuss how this would bias the estimation in (a).

c.    [3] Given the discussions in (b), we re-estimate the following multiple linear regression model, lwage = F0  + F1lOOkS + F2SeTviCe + u.

Do you find a very large change in  F̂1 ? In other words, do you find F̂1  increase or decreases by more than 10% of its value in a.?

d.    [6] Discuss which statement in (b) does not hold in the data that leads to your finding in (c). Suppose MLR 4 holds for the rest of questions. Now we move on to the diagnostics of MLR 5.

e.    [4] Conduct a White test for the multiple linear regression model in (c) to test whether the error terms are heteroskedastic or not. Use 1% significance level for this exercise. If you find evidence in support of heteroskedasticity, adjust the OLS estimation from (c).

f.     [6] Based on your previous estimation of F1, conduct a one-sided t-test for the null hypothesis F1  = 0 against a one-sided alternative F1  > 0 using 1% significance level. You need to report the t-statistic and the critical value for this exercise.

Change the specification of the multiple linear regression model.

g.    [1] Now we use a different linear regression model to test the impact of one’s appearance on her labor market outcome. Estimate the following multiple linear regression model instead:

lwage = e0  + e1 belavg + e2 abvavg + SeTviCe + u,

h.    [6] Based on your estimation in (g), test if we can reject the null hypothesis that one’s appearance has no impact on one’s wage or not at 1% significance level. Hint: you need to define the null hypothesis  and choose the  proper test  statistic  (t-test,  F-test, etc). You also  need to  decide whether to use heteroskedasticity-robust standard errors or not.