Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

BUSINESS ANALYTICS

QBUS2810:  STATISTICAL MODELLING FOR BUSINESS

SEMESTER 2, 2023

Individual Assignment (20%)

This individual assignment will contribute 20% towards your inal result in

the unit. The deadline is Friday september 8th , 2023 by 11:59pm (sydney time). submission is via Turnitin on canvas.

Key requirements:

1. You are provided with a template Jupyter Notebok to complete your entire as- signment, including your python code and markdown sections for your written answers.  Rename the Notebook by replacing  ”123456”  at the end of ile name with your SID. use LaTex in markdown cells where needed.

2.  Submit the FINAL Jupyter Notebook in both *.html and *.ipynb (raw) iles via Turnitin on canvas.  our markers will mark your HTML iles on Turnitin and utilize the ipynb iles to validate the python code displayed in the HTML iles.

3. Includeonly relevant analysis outputs (graphs, tables, etc.) in the submitted iles, and ensure that all outputs are presented alongside their corresponding discus- sions. Intermediate analyses that are not directly related to the inal discussion in each question should be omitted.

4. Attention should be given to both python code and presentation.  The repro- ducibility of python code and the quality of your notebook,s presentation will account for 15 out of 100 marks (15%) in the Individual Assignment. You can use the tutorial notebooks as a reference for achieving the mini- mum satisfactory presentation level.

Business problem

This assignment aims to investigate the statistical relationship between house prices  (dependent variable) and relevant predictor variables (independent variables).  The ul-  timate goal is to develop meaningful linear regression models that suggest how houses) attributes inluence their prices.  This understanding will enable us to make reasonable  predictions of house prices based on available information about the properties.”

Data

The data ile for analysis is named house price train data.csv, containing informa- tion on  1000 houses.   This  dataset is commonly referred to as the  tTaining  data  or in-sample data, as it will be utilized for exploratory data analysis (EDA) and model estimation such as deriving parameter estimates from observed data.  we denote this dataset as DtTain  = (ytTain , xtTain ). The table below provides a data dictionary:

Additionally, you are also provided with a test dataset house price test data.csv , denoted as Dtest  = (ytest , xtest ).  This dataset consists of Ntest   = 80 houses with the same set of predictors as shown in the training data. The objective of this test data is to evaluate the predictive performance of the linear models developed in Tasks 1-5.

Predictive measure

To measure the prediction performance of a regression model, we will use Root Mean Square Error (RMSE), which is calculated as

with:

.  Ntest  the number of test observations

.  ytest,i  the observed price of the ith  house in the test data

~

.  ytest,i  the pricted price of the ith  house in the test data using the regression model, e.g., ytest,i  = E[ytest,i |xtest,i].

For example, if Model 1 generates predicted values with a smaller RMSE compared to those of Model 2, we can conclude that Model 1 has better predictive performance than Model 2, measured by RMSE.

Note: In linear regression, R-squared (for SLR) or Adjusted R-squared (for MLR) is used to access the model,s itting or in-sample performance of the estimated regression models. RMSE, on the other hand, is one of commonly used measures to evaluate the predictive or out-of-sample performance of the model on unseen data, such as data that were not used to estimate model parameters.

Questions

For Task 1-5, use the training data “house price train data.csv” to perform EDA and model estimation.

For Task 6, use the test data “house price test data.csv” the check the predictive per- formance of the linear models.

Task  1  (15  marks): conduct a comprehensive exploratory data  analysis on house prices for all houses, covering the following aspects:

(a)  Discuss any data cleaning you performed, including reasons for your decisions and the methods used, or reasons for not performing cleaning.

(b)  Examine the data types of all variables and consider appropriate data treatments for their usage in a linear regression model.

(c)  Investigate potential relationships between all predictors and house prices. utilize charts,  correlation  coe伍cients,  hypothesis testing,  and  other  tools to support your analysis. Based on your indings, identify the most and the least inluential predictors for explaining house prices and provide statistical evidence to support your conclusion.

Task 2  (15 marks): conduct  (with a  = 0.05) the appropriate t-test, median and Mann-whitney tests, to assess whether houses prices are typically higher for houses with waterfront (the alternative of unequal prices is ine for the median test). Assess all assumptions made. which test,s result do you believe the most? Discuss and explain.

Task  3  (15  marks): conduct  a simple linear regression analysis, irst using OLS and then using LAD estimation, for houses, prices on living area size in square meters. Report and comment on parameter estimates & signiicant test for slope, model itting. Fully assess all assumptions made for both OLS and LAD. comment on the similarities and diferences of estimation results obtained from OLS and LAD. You can use the theoretical discussions on OLS and LAD to conirm what you observed.

Task 4 (10 marks): Given the SLR model in Task 3, now we want to add one more predictor to improve the model it using a MLR. Based on the analysis in Task 1, what is the second predictor you will use together with the living area size to improve the model it of the SLR? Fit the MLR model using OLS estimator.  Report and comment on parameter estimates & signiicant tests for slopes and model itting.  Is the model it improved compared to the SLR model in Task 3?provide relevant analysis to support your answer.

Task 5 (10 marks): Repeat all steps in Task 4 with one additional predictor. what is the third predictor you will select? Fit the MLR model using OLS estimator.  Report and comment on parameter estimates & signiicant tests for slopes and model itting.

Is the model it improved compared to the MLR model in Task 4? Discuss potential co-linearity between predictors in this model.  provide relevant analysis to support your answer.

Task 6 (10 marks): use three linear regression models you have developed so far to make price predictions for the 80 houses shown in the test data Dtest , and compute the prediction errors measured in RMSE. use OLS estimates for the SLR. Among three models you have developed, which model has lowest prediction error? Is it what you expected? why or why not?

Task 7 (10 marks): write a brief report summarizing and discussing your indings and conclusions.  For example, are the predictors useful to explain the house prices? what are about the performance of linear models used? Are the LSAs satisied? If not, what should we do? etc.  If you are a property investor, what are your strategies when buying houses to maximize the capital gain based on what you have discovered so far?