Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Econ 452: PS2

February 4, 2023

Due Feb 13, 2022, 11:59pm

• In this problem set you will be asked to work on empirical problems using Stata and show mathematical derivations or proofs in some other questions. For this you will be submitting two parts combined in one pdf le.  The rst part will consists of your interpretation, proofs/derivations and answers to the questions which have been asked. This part must be typed up. The second part will be a Stata log le which will show all your code and the output you get from running your code. The results are the most important thing and hence should be read- able. All variables should have discernable labels in them, so that the tables are readable by anyone in your log le.

• Submitted problem sets which do not follow this format, or miss to submit one of the above two parts in their pdf le, will not get any credit.

• If you have any questions regarding the PS, or request for extension under ex- tenuating circumstances, please email Seth or Tanvir.

• The rst question asks you to comment on consistency of estimates. You have seen in class that every estimator needs some assumptions which tell us whether the estimates are consistent or not i.e., as sample size grows large does the esti- mate converge to the true parameter that we are interested in estimating.  We have worked in details on when the OLS and when the IV estimators are consis- tent.  Clearly in many contexts, those assumptions do not hold for a variety of reasons as we have seen in class for which we need to work with different esti- mators (like use IV instead of OLS). In class we have worked through the math of when the OLS estimator is consistent and when it is not. We have also discussed in details the intuition behind it. In the questions of consistency in problem 1 of PS2, your objective is to take the knowledge from lecture and transfer it to this context in the problem set. The intuition will be similar, you just need to argue it correctly in this context.

Problem 1: Consider the following true model of log of wages and years of education:

log(wagesi) = α0 + α1Educationi+ α2 Abilityi + OtherControls γ + ei

OtherControlsi include age, experience, family income and a dummy of whether i lives in a city.

(a) Load Data1_PS2 .dta and run the regression of log(wages) on all covariates in the data. Interpret each coefficient and comment on the consistency of the es- timates.

(b) Now merge ability_PS2 .dta on the unique identifier in both data sets id. Suppose this has data on true ability on a scale of 0-3. Now run the above regression but include ability in the regression.  Interpret each coefficient and comment on the consistency of the estimates.

(c) Show how ability and education are correlated.

(d) Now repeat the regression in (b), but instead of using years of education gen- erate a categorical variable educ_cat by running the following lines of code:    ge  educ_cat  =  1  if  educ<12

replace  educ_cat  =  2  if  educ==12

replace  educ_cat  =  3  if  educ>12

lab  define  educ_cat_val  1   "Less  than  HS"  2   "HS  graduate"  3   "Some College"

lab  val  educ_cat  educ_cat_val

Interpret each coefficient and comment on the consistency of the estimates. Why you may want to do this i.e. use categories of education than using education as a continuous variable?

(e) Now suppose you get data on each individual’s IQ test score iqi as a proxy of ability and you want to run:

log(wagesi) = α一0 + α一1Educationi + α一2iqi + OtherControls + i             (1)

Suppose in truth, ability is mapped into IQ scores through the following equa- tion:

iqi  = 60 + 61abilityi + ηi

, where ηi is the error term which captures the noise in the measure of IQ scores. In particular, individuals with higher ability have much lower noise than indi- viduals with lower ability. Given the description above, prove mathematically whether or not, an OLS regression of equation (1) with IQ scores as proxy of ability provide consistent estimates.

Problem 2: Load the MROZ dataset from Wooldridge:

use   "http://fmwww .bc .edu/ec-p/data/wooldridge/mroz",  clear  This dataset contains information on married working women. Use the follow- ing command to keep only those women who are in the labor force:

keep  if  inlf==1

(a) Run an OLS regression of log wage (lwage) on years of schooling (educ). What are the returns to education? In order to address the concern that educa-

tion may be correlated with unobserved factors such as ability, you would like to use mother’s years of schooling (motheduc) as an instrument for education.

(b) Is mother’s education a good instrument for education?  Explain your rea- soning.

(c) Empirically, test whether mother’s education is a relevant instrument?

(d) Re-estimate the model from part (a), but this time implement 2SLS using mother’s education as your instrument for education.  Compare the economic and statistical significance of your estimated returns to education with your re- sults from part (a). Are the results similar?

(e) Which standard errors are higher - in part (a) or part (d)? Is this as you would expect? Explain.

Problem 3: Consider a regression model

Yi  = β 0 + β1Xi + ui

But instead of assuming E(Ui  | Xi) = 0 suppose you assumed that E(ui  | Xi) = 1 + 2Xi .  Derive estimates of β 0  and β 1  under these assumptions.  Does OLS estimator give consistent estimates?  Prove your answer.  (Hint: Try to start by finding the values of E(ui− 1 − 2Xi) and E[Xi(ui− 1 − 2Xi)]. For the second you will need to use the law of iterated expectations).