Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Business Analytics

QBUS2810: Statistical Modelling for Business

Semester 1, 2023

Week 2 Tutorial

Task 1

Berenson text, Chapter 12, page 474 (custom ed.), has an example of a Hotel guest satisfaction survey run by T.C. Resort Properties, who run ve up-market hotels on two resort islands. The business objective is to improve the proportion of guests who would stay again, or return, to these hotels following their visit.  The company asks guests to complete a survey, explaining that they wish to measure and then improve the quality of their hotel and guest experience.

The data from one survey, collected from guests at two hotels called Beachcomber and Windsurfer, are in the le Hotelpref.csv” .

There are two variables: ”B/W” which equals 0 for Beachcomber and 1 for Windsurfer; and Y/N”, which equals 1 for Yes they will return and 0 for No they will not return.

T.C. Resort Properties would like you to analyse this data and indicate whether or not there is a difference in whether guests would return to each of the two hotels.

(a)  Conduct an exploratory analysis on each variable individually.

(b)  Conduct an exploratory analysis related to the primary question:  is there a difference in whether guests would return to each of the two hotels?

(c)  Conduct the Pearson chi-squared test for independence.   Assess whether the assumptions for the test are met, or not.

(d)  Conduct Fisher’s exact test for independence.  Assess whether the assumptions for the test are met, or not.

(e) Find P (YeslWindsurfer) and P (YeslBeachcomber).  Then, using all the results above, fully describe the relationship between the two variables found.

Task 2 (Homework: will not be covered during tutorial.)

The book Business Analytics for Managers”, by Wolgang Jank (Springer)

http://www.springer.com/gp/book/9781461404057 has an example of a customer database for a company called Direct Marketing.  The business objective here is to better un-      derstand their customers.

The data are in the le Table 2.6 DirectMarketing.csv” .

There are several variables, but we focus on only two: the number of children” each customer has, recorded as 0,1,2,3; and their purchase History”, classified as High”, ”Middle” and Low”, depending on how often they have purchased from Direct Mar- keting in the past.

Direct Marketing would like you to analyse this data and indicate whether or not there is a relationship between customer age and history.

(a)  Conduct an exploratory analysis on each of the two variables individually.

(b)  Conduct an exploratory analysis related to the primary question:  is there a relationship between number of children and history?

(c)  Conduct the Pearson chi-squared test for independence.   Assess whether the assumptions for the test are met, or not.

(d) Fully describe the relationship between the two variables found.

Task 3 (Homework: will not be covered during tutorial.)

Consider a general 2 by 2 cross-tabulation:

Y

X

0

1

Row Total

0

1

a

c

b

d

a+b

c+d

Column total

a+c

b+d

a+b+c+d=N

(a)  Show that P (Y = 0lX = 0) = ; P (Y = 1lX = 0) = ; P (Y = 0lX = 1) = ; P (Y = 1lX = 1) =

(b)  Show that the odds ratio for the event Y = 1 is given by OR = ad

(c) Verify that the formulas in (a) and (b) hold for the observed 2 by 2 table in Task 1.

(d)  Consider the table with values a = 5, b = 2, c = 7, d = 13.  Find the associated expected values under independence.

(e) Find the probability of observing this table, under Fisher’s hypergeometric set- ting.

(f) Write down the closest more extreme” table, compared to a = 5, b = 2, c = 7, d = 13, that keeps row and column totals constant.  Find the probability of observing this 2nd table via Fisher’s rule.

(g)  Conduct Fisher’s exact test.  Verify that the OR is as given in the formula in part (b).

(h)  Challenge:  Find the 4 more extreme” tables (not including a = 5, b = 2, c = 7, d = 13) whose probabilities are added to get Fisher’s exact two-sided p-value. Verify that Fisher’s two-sided p-value is the sum of the probabilities for these 5 tables.

Task 4

Consider the following set of data: Y = [8.5, 12, 5.3, 3.2, 5.6, 8.6, 3.1, 17, 7.2, 13, 6.3, 5.1, 7.6, 10, 1.1, 14], X = [1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2]

(a)  Consider that X indicates which of two groups each observation on Y belongs

to. Conduct an exploratory data analysis (EDA) on whether and how Y and X are related.

(b) Find the ranks of Y . Show that these ranks add to 0.5 × 16 × 17.

(c)  Conduct a two-sample t-test on whether Y and X are related.

(d)  Conduct the median test to assess whether Y and X are related.

(e) Find the two groups of ranks and compare them in an EDA. Conduct the MW U test.

(f) Which tests results do you believe most? Are any valid in this case?

(g)  Change the maximum of Y to instead be 30. Repeat parts (b)-(f).

(h) Did any test or conclusions change using the new data? Explain why or why not.