Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

ASSIGNMENT

Semester 2, 2022

STAT7055 Introductory Statistics for Business and Finance

Question 1   [25 marks]

Some data were collected to assess problem solving skills in secondary school students within a school district. A random sample of 500 year 7 students and a random sample of 500 year 8 students were selected (the two samples were selected independently of each other) and each student was given a test consisting of questions based on logic and reasoning. The time in minutes it took each student to complete the test was recorded. The data are stored in the le AssignmentData.RData in the data frame Q1.df.  The data frame contains two columns, one for the test times of the year 7 students (Year7) and one for the test times of the year 8 students (Year8).

(a)  [4 marks]  Create a boxplot and a histogram of the test times for the year 7 stu-

dents. Make sure to give each plot a proper descriptive title and label the x-axis of the histogram appropriately (do not just use the default titles or labels). Based on these plots, describe the distribution of the test times for the year 7 students.  Be specific in your description, making sure to mention any interesting and/or impor- tant aspects of the distribution.

(b)  [3 marks] Based on the definitions given in the lectures, calculate the sample range,

the sample interquartile range and the sample coefficient of variation of the test times for the year 7 students.

(c)  [4 marks] The testing centre that collates all the students’ test results classifies a test taker’s performance into categories depending on the time it took them to complete the test. Specifically, a test time shorter than 43.75 minutes is considered “great” , a test time between 43.75 and 45.15 minutes is considered good” , a test time between 45.15 and 48.95 minutes is considered average” , a test time between

48.95 and 54.25 minutes is considered “mediocre” and a test time longer than 54.25 minutes is considered “poor” . Create a bar chart that describes the year 7 students’ test performance in terms of this classification.  Make sure to give the bar chart a proper descriptive title and label the x-axis appropriately (do not just use the default title or label). Determine the least frequently occurring category.

(d)  [3 marks] Test whether the population proportion of year 7 students within the school district that would complete the test in less than 50.55 minutes is less than 0.415.  Clearly state your hypotheses, making sure to define any parameters, and use a significance level of α = 5%.  Do not use any R functions that are designed to perform hypothesis tests.

(e)  [4 marks] Test whether the population proportion of year 7 students within the

school district that would take longer than 50.75 minutes to complete the test is less than the population proportion of year 8 students within the school district that would complete the test in less than 49.55 minutes. Clearly state your hypotheses, making sure to define any parameters, and use a significance level of α = 2.5%. Do not use any R functions that are designed to perform hypothesis tests.

For parts (f), (g) and (h), consider only the test times for the rst six year 7 students in the sample (i.e., the rst six rows of the Year7 column in the data frame).

(f)  [3 marks] For a randomly selected sample of size three taken without replacement

from among these six test times, determine the sampling distribution of the sample range.

(g)  [2 marks] For a randomly selected sample of size three taken without replacement

from among these six test times, if the sample range was greater than 5, find the probability that it was less than 8.

(h)  [2 marks] For a randomly selected sample of size three taken without replacement

from among these six test times, calculate the variance of the sample range.

Question 2   [43 marks]

A study was conducted to investigate possible relationships between upper body strength, body weight and handedness among people who play one of three recreational sports. A sample of 300 total people was obtained by randomly selecting people from each of the three recreational sports and the following were recorded for each person: their body weight in kilograms (Weight), their bench press amount which was defined to be the amount in kilograms that they can comfortably bench press three times (BenchPress), the recreational sport that they play (Sport) and whether they were left-handed or right- handed (Hand). The data are stored in the file AssignmentData.RData in the data frame Q2.df.

(a)  [3 marks] Test whether the population variance of body weight is the same for peo-

ple who play football and for people who play tennis. Clearly state your hypotheses, making sure to define any parameters, and use a significance level of α = 1%.  Do not use any R functions that are designed to perform hypothesis tests.

(b)  [4 marks] Test whether the population mean body weight of people who play tennis

is greater than the population mean body weight of people who play football by more than 0.9 kilograms. Clearly state your hypotheses, making sure to define any parameters, and use a significance level of α = 1%.  Do not use any R functions that are designed to perform hypothesis tests.

(c)  [4 marks] Based  on  methods  covered  in the  lectures,  use  a  single test to test whether the population mean body weight is the same across all recreational sports. Clearly state your hypotheses, making sure to define any parameters, and use a sig- nificance level of α = 2%. Do not use any R functions that are designed to perform hypothesis tests or to perform, analyse or interpret an ANOVA.

(d)  [7 marks] Discuss whether the assumptions for the test you performed in part (c) hold for this data. You do not need to conduct any hypothesis tests, but make sure to provide clear justifications for your answer.

(e)  [3 marks] Test whether the population mean body weight of right-handed people

who play tennis is less than 86.5 kilograms. Clearly state your hypotheses, making sure to define any parameters, and use a significance level of α = 0.5%. Do not use any R functions that are designed to perform hypothesis tests.


(f)  [3 marks]  Create a scatter plot of bench press amount against body weight. Make

sure to give your plot an appropriate title and appropriate labels for the x and y axes. Describe the relationship between these two variables.

(g)  [3 marks] Test whether the correlation between bench press amount and body

weight is greater than zero.  Clearly state your hypotheses, making sure to define any parameters, and use a significance level of α = 5%. Do not use any R functions that are designed to perform hypothesis tests.

(h)  [2 marks] Fit a simple linear regression model with bench press amount as the

dependent variable and body weight as the independent variable.  Write down the estimated regression model.

(i)  [5 marks] Discuss whether the assumptions for a simple linear regression model hold for the model you tted in part (h), making sure to provide clear justifications for your answer.

(j)  [5 marks]  Considering only left-handed people, fit a simple linear regression model

with bench press amount as the dependent variable and body weight as the inde- pendent variable without using the lm function or any other R function designed to fit, analyse or interpret regression models. Write down the estimated regression model.  Use the estimated regression model to predict the bench press amount for a left-handed person who weighs 80 kilograms without using any R functions that are designed to calculate any predictions.

(k)  [4 marks] For right-handed people who weigh more than 87.5 kilograms, test whether

the population mean body weight is greater than the population mean bench press amount by more than 13.5 kilograms.  Clearly state your hypotheses, making sure to define any parameters, and use a significance level of α = 2.5%. Do not use any R functions that are designed to perform hypothesis tests.

Presentation   [2 marks]