Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

ECON 103, Spring 2023

Project 1

Due: April 19 2023

For this project, you will work any dataset you like, however, it must contain at least 5 different predictors and one response variable (continuous). Your task will be to produce a descriptive model and summary of findings based on your hypothesis by following the steps outlined below. There are many publicly available datasets through Google DataSet SearchKaggle, AER - base R datasets, etc

1.  Briefly discuss the question you are trying to answer with your model.

2.  Give a description of your dataset including:

(a)  Citing the dataset

(b)  A summary of what the dataset is about

(c)  Descriptive analysis of your variables. This should include histograms with fitted distributions and correlation matrix, and the five number summary (which can be accompanied by a boxplot). All figures must include comments including, but not limited to, the distribution, central tendency and dispersion of the variables.

(d)  Possible violation of the regression assumptions.

3.  Estimate a multiple linear regression model that includes main effects only (i.e.  no interactions or higher order terms). This is our baseline model.

(a)  Comment on the statistical and economic significance of your individual estimates

and provide an interpretation of the estimates obtained.  Include any anomalies present if any such as unrealistic magnitudes, unexpected signs, etc.

(b)  Comment on the overall fit of the model and how 1(d) might interfere with this.

Comment also on the overall statistical significance of the model. FEATURE SELECTION

4.  Test the model in (3) for multicollinearity using VIF. Based on this test remove remove the appropriate variables and estimate a new regression model based on these findings. Be sure to justify your reason/criteria for removal.

5.  Using AIC or Schwartz Criterion, determine which subset of predictors you will keep and generate a new model. Comment on the performance of this model compared to the one in (3)

6.  Using the model in (4) plot the residuals versus its fitted values,  and comment on your results.

7.  Perform a RESET test on the model in (4) and comment on the results.

8.  Using the appropriate method learnt in class, test the model in (4) for heteroskedastic- ity and comment on the conclusion. If it is present, correct the model before moving on.

9.  Using a combination of the results from the previous steps, estimate a model based on your findings which includes interaction terms or higher power terms (if necessary). Comment on the performance of this model compared to your other models.  Make sure to use AIC and Schwartz criterion for model comparison.

10.  Provide a short  1 paragraph summary of your overall conclusion and findings, not previously stated above.