Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

STATS221-22A   Statistical Data Analysis

Assignment Two

2022

Question 1: [30 Marks]

For this question, we will use the data in the Excel worksheet ‘IronContent’. A copy of this can be found on Moodle. Download this onto your computer. This data set contains the data on the iron content of the foods cooked in aluminium, clay and iron pots. The data comes from a medical experiment and contains the following:

Variable

Description

Variable Type

obs

Observation number

Numeric

type

Type of the pot

Categorical

food

Type of the food

Categorical

iron

Iron content in the food (mg of iron/100gms of food)

Numeric

Aim of this study:  The aim of this study was to investigate if the type of the pot used for cooking has any effect on the iron content of the cooked food. Iron deficiency anaemia is the most common form of malnutrition in some of the developing countries. Iron pots for cooking foods had traditionally been used in many of these countries, but they have been largely replaced by aluminium pots, which are cheaper and lighter. Some research has shown that food cooked in iron pots will have more iron than food cooked in other types of pots. But the iron content also depends on the type of food being cooked. This study investigates whether the type of pot has any effect on the iron content by comparing the iron  content  of  some  Ethiopian  foods  (meet,  legumes  and  vegetables)  cooked  in aluminium, clay and iron pots.

Task 1:

Which ANOVA  method  (one-way, two-way  or two factorial)  is the  most  appropriate

methodology for answering this question? Why?                                                       [5 Marks]

Task 2:

How would you frame your hypothesis for this study? Write your null and alternative hypotheses for the model you selected in Task 1. Clearly write what these mean in terms

of the study question.                                                                                                       [5 Marks]

Task 3:

Perform the method of your choice (your answer in task 1) using R.  Plot the appropriate

diagnostic graphs. Paste the R figures and outputs in your word document. Answer the following questions.

a)   Explain what each of the plots tells you about the data.

[1 Mark]

[4 Marks]


b)   Based  on the  plots, do you think  it was  reasonable to  implement this ANOVA method on this data?                                                               [3 Marks]

c)   Interpret the ANOVA output. Would you reject the null hypothesis?

[3 Marks]

Task 4:

Do you think that you also need to perform the pair wise comparisons? If yes, Why? If not, why not? If your answer is yes, then implement the pair wise comparisons using R.

Paste the R output in your word document and write your interpretation.

Task 5:

Conclude the findings of this study based on your data analysis.

[4 Marks]

[5 Marks]


Question 2:   [25 Marks]

For this question, we will use the BMI values that were calculated using the height/weight information collected in the class survey.  The BMI data is stored in the Excel worksheet Class_BMI.CSV. A copy of this can be found on Moodle. The data contains the following variables:

Variable

Description

Variable Type

BMI_both

BMI values for the entire sample

Numeric

BMI_F

BMI values for the female participants

Numeric

BMI_M

BMI values for the male participants

Numeric

Body Mass Index (BMI) is a popular indicator of a person’s weight relative to their height. It is not a perfect measure by any means and has limitations, however, is easy to calculate and widely used. The New Zealand Heart Foundation considers the BMI that is between the ranges of 18.5 and 24.99 to indicate normal weight, which is generally good for a person’s health. (https://www.heartfoundation.org.nz/wellbeing/bmi-calculator)

While in reality the sample was not random and comes only from the STATS221 class, let us, for the purposes of this question, assume that the data comes from a random and representative sample of all the University of Waikato students.

Task 1:

Using any of the descriptive stats and plots that you learned, what can you say about the state of health of the population (M & F combined) as indicated solely by the BMI?  (use

BMI_both variable for this task). Paste your output and justify your answer.      [10 Marks]

Task 2:

Test if there a difference in the mean BMI of the male and the female students?

     Define your hypotheses and justify the choices.

     Paste your outputs and justify your choice of the test.

     Interpret your results and answer the posed question.

.                                                                                                                                          [15 Marks]


Question 3:    [30 Marks]

In surveys done in two statistics classes at the University of California Davis (UCDavis), students reported their GPAs and also where they typically sat in a class (font, middle, back). In addition they also reported their gender and how much sleep they typically get (in hours). The sleep was later categorized as normal, insufficient or excessive. This data is  stored  in  an  Excel  worksheet  called  UCDAVIS1.CSV  on  Moodle  and  contains  the following variables:

Variable

Description

Variable Type

Sex

Male or Female

Categorical

Sleep_N

No. of hours slept

Numeric

Seat

Where they typically sit in the class

Categorical

GPA

Grade point average

Numeric

Sleep_C

Sleep categories

Categorical

Task 1:

Is it true that the best students sit in the front of a classroom or is that a false stereotype? Analyze the data to answer if the student’s GPA is affected by where the students typically sit.

     Define your hypotheses and justify the choices.

     Paste your outputs and justify your choice of the model.

     Interpret your results and answer the posed question.

.                                                                                                                                          [15 Marks]

Task 2:

Next, we want to examine if the amount of sleep and where they normally sit in the class are related and if either of them have any impact on the GPA.

     Define your hypotheses and justify the choices.

     Paste your outputs and justify your choice of the model.

     Interpret your results and answer the posed question.

.                                                                                                                                          [15 Marks]