Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Math312

Final-Data Analysis (40% of the final)

Fall 2022

Building Multiple Regression Model Due: 11:59pm 12/09/2022

Note that

(1)   You NEED to typeset and submit your work in PDFformat (e.g. MS/WORD and convert into a PDFfile).

•    The number of the pages excluding cover page and appendix SHOULD be at least 5 and no more than 10 (page in letter size).

•    Font size is between 10 and 12 inclusively.

•    You don't start each of the sections in a new page .

•    Margin sizes are suggested to be 1 inch wide.

•    Single-line spacing for the main text.

(2)  All the analyses are expected to be done in SAS and all the included SAS output need to be explained.

(3)  Graphs (exceptfor scatter matrix and diagnostics panel) can only be a-third-of-page high at most, need to be NUMBERED and CAPTIONED. Tables are expected to be in reasonable size. Remove all the unnecessary or unexplained tables orfigures. Failure to do so will result in deduction of points. It helps to think about you will be charged by the number of pages if report gets acceptedfor publication.

(4)  Place your SAS code in the appendix. (for your later reference)

Find the Final_data.sas” included in the TH_Final folder and use the (to be generated) Surgical dataset therein to perform the tasks listed below. A hospital surgical unit was interested in predicting survival in patients undergoing a particular type of liver operation. A random selection of 54 patients was available for analysis. From each patient record, the survival time and the information extracted from the pre-optional evaluation are available:

Y: survival time

LnY: logarithm of Y.

X1 : blood clotting score

X2 : prognostic index

X3 : enzyme function test score

X4 : liver function test score

X5 : age, in years

X6 : indicator variable for gender (0 = male, 1 = female)

X7 and X8 : indicator variables for history of alcohol use:

Alcohol Use

X7

X8

None

0

0

Moderate

1

0

Severe

0

1

1. (10 pts) Exploratory Data Analysis: (you could do more deemed helpful)

a.    Generate a 6x6 scatter matrix for all the numerical predictors (X1-X5) and the response: survival time (Y) with marginal histograms on the diagonal. Explain the possible associations among variables (especially to the survival time and possible issue on multicollinearity) and comment on their distributional behaviors.

b.    Generating boxplots for all the numerical variables (X1-X5 and Y) when grouped by sex and alcohol use, resize the plots and place them in a three-column display. Remember to label the plots and annotate them in the caption. Comment on whether there seems to be effects of sex and alcohol on X1-X5 and Y.

c.    Generating visuals for all the categorical variables (Sex and Alcohol), e.g. frequency tables or pie charts. Fit the visuals in reasonable size.

2. (10 pts) Correlation Analysis on numerical features

Evaluate all the pairwise correlations among all the numerical features (X1-X5  and Y). Report the significantly correlated pairs, make your comments connected to what you discovered in 1.a. Project the optimal regressor sets for regression model if to be implemented.

3. Regression Analysis (using REG procedure)

a. (10 pts) Fit the FULL regression model for regressing Survival time (Y) on ALL the eight numerical features (X1-X8) (excluding LnY).

i.   Testing for the regression effect at 5% level of significance.

ii.   Perform model diagnostics. Report any serious violations (against normality, zero serial correlation and homoscedasticity).

iii.   (if no violation) Report the LSE fit for the full model and its value of adjusted R2 .

b. (10 pts) Repeat a. with regressing the logarithm of survival time (LnY) on X1-X8 (excluding Salary). Compared to a., does it seem to be a better setup, why? Explain.

c. (10 pts) Using LnY as the response, evaluate the extent of multicollinearity among regressors.

d. (20 pts) Perform model selection via (1) Adjusted R2, (2) AIC, (3) BIC, (4) SBC, (5) Cp, (6) groupLASSO and

(7) Elasticnet.

Prepare a table that lists the best models suggested by (1)-(7).

e. (10 pts) Select with explanation your optimal subset of predictors and fit the corresponding regression model. Conduct model diagnostics on this final model. Explain the result.

f. (10 pts) Report and explain your final model(s). How does your final model compare with your projection from EDA result in 1.? Provide possible suggestion for the improvement of future modeling.

4. (10 pts) Take your best subset of regressor from 3. and delete any of X6,X7,X8 if any. Specify and include Sex and Alcohol as categorical predictor in the model when using GLM procedure. Is there significant effect of Sex and Alcohol?

5. (Extra) Find the standardized coefficients for your final model and compare on the plausible impacts for regressors on the response (survival time in logarithm scale) by their coefficients.

Please refer to the annotated MR EX-01 for the understanding of the flow and SAS codes.