Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Causal Inference

Fall 2022

DS UA 9201 Problem Set 1

Exercise 1:    Salk Vaccine Field Trial (15 points)

Polio claimed hundreds of thousands of victims from 1916-1956.  It affected mainly children. By the 1950s, several vaccines had been discovered and successfully tested in the lab. The most promising one had been proposed by Jonas Salk.

By 1954 public health service was ready to try the vaccine in the real word, i.e., outside the lab on patients.

Question 1    (5 points)

What if the vaccine had just be given to a large number of children in 1954? Would this have allowed to conclude on the efficiency of the treatment, for instance by looking at the polio cases in the following year?

Question 2    (5 points)

Instead, the vaccine is given to a treatment group and not to a control group. Treat- ment and control group are defined via the parent’s permission to treat their children. (parent’s permission is required to vaccinate children). Is this a valid randomization strategy to test the effect of the vaccine? Justify your answer.

Question 3    (5 points)

What is a better alternative to the above strategy?

Exercise 2:    Average Treatment Eect on the Treated (25 points)

Suppose we have a sample of observations, each assigned a binary treatment Ti   e {0, 1} with Ti  = 1 indicating a unit is treated and Ti  = 0 indicating the unit is assigned control. Assume 0 < Pr(Ti  = 1) < 1. We observe an outcome Yi for each observation. We define potential outcomes Yi (1) and Yi (0), denoting the outcome observed for unit i if it were assigned treatment (Yi (1)) or control (Yi (0)) respectively.  Assume that Yi (1), Yi (0) are iid from the same distribution, which implies that:  E[Y1 (t)] = . . . = E[Yn (t)] = µ(t) and Var[Y1 (t)] = . . . = Var[Yn (t)] = σ2 (t).

In class we have talked about the Average Treatment Effect  (ATE), which is defined as τ = E [Yi (1) _ Yi (0)]. Another very common effect of interest to researchers is the Average Treatment Effect on the Treated (ATT), which is defined as:  τt   = E[Yi (1) _ Yi (0)|Ti  = 1].

Question 1    (5 points)

What is the interpretation of the ATT? Give your description of what this effect means and how it is different from the ATE.

Question 2    (10 points)

We assume that:

● The Stable Unit Treatment Values Assumption holds for all treatment levels: Yi  = Yi (1)Ti + Yi (0)(1 _ Ti )

● Weak ignorability holds only for the control outcome, i.e.: Yi (0) l Ti , and it is not true that: Yi (1) l Ti

Show that consistency of all treatment levels, and weak ignorability of the control contition  (the assumptions just made) are enough to identify the ATT, i.e., show that: τt  = E[Yi |Ti  = 1] _ E[Yi |Ti  = 0].

Question 3    (10 points)

Write and simplify the difference between the ATE and the ATT under the same as- sumptions as the previous question. What additional assumption is necessary for this difference to be 0, and for the ATT to be equal to the ATE? Why is this assumption enough?

indication:  You may start from the definition τ _ τt  = E[Yi (1) _ Yi (0)] _ E[Yi (1) _ Yi (0)|Ti  = 1]

Exercise 3:    Bernoulli trial (30 points)

Under the same setting as Exercise 2, we suppose that Ti  is assigned to the n units in a Bernoulli trial, that is each unit receives treatment independently with probability Pr(Ti  = 1) = p.

Question 1    (10 points)

Recall that the number of treated units, Nt  is defined as Nt  =      Ti .  Recall that

in the case of a Bernoulli trial, Nt  is a random variable.

1. What distribution does Ti  follow?

2. What is E[Nt]?

3. What is Var[Nt]?

4.  Suppose that we wanted the expected number of treated units in our Bernoulli trial to be the same as the number of treated units as a completely randomized experiment with nt  treated units. What value of p should we choose?

Question 2    (15 points)

After conducting the experiment as described above, we wish to estimate the ATE. To do so, we employ the following estimator:

IPW  =  i1   Yi   _ Yi  .

Show that under consistency, positivity, and ignorability for all treatments this estimator is unbiased for the ATE.

Question 3    (5 points)

Suppose now that we used the same estimator defined above in a completely ran- domized experiment, where exactly nt  units are treated.  Show that, in this case, the estimator above is equal to the Neyman difference-in-means” estimator we saw in class.

Exercise 4:    Social Pressure and Voter Turnout (55 points)

Gerber, Green and Larimer randomly assigned households to receive a mailing encour- aging them to turn out to vote before the Michigan 2006 primary election (Gerber, Green and Larimer (APSR, 2008)).  We will be using the individual data obtained from the experiment. Each row in the dataset represent an individual record, where p2000 represents whether the individual had voted in August 2000, g2000 represents whether the individual had voted in November 2000 (same for p2002, g2002, p2004). Each individual belongs to a household specified by hh id.

Question 1    Data preparation (10 points)

In order to analyze the GOTV data we will need to reproduce the household-level dataset of the original paper.

1. Recode the variable sex by changing the character to oat (i.e. ”female” to 1., ”male” to 0.)

2. Recode the variable yob  (year of birth) into a new variable called age” by subtracting yob from the year the experiment took place, 2006.

3.  Group the data into households, i.e., create a new dataframe where each row is a household with a unique hh id, and each column is the the mean value of each of the other individual-level variables in that household.  (Hint: you may consider using the groupby method in pandas.)

4. In the paper, the authors analyzed households rather than individual. Why did they do this?

Question 2    Validate Randomization (10 points)

Using the household dataset you obtained above, verify that the experimental assign- ment is randomized at the household level by computing and showing the sample means of each of the variables: p2000, g2000, p2002, g2002, p2004, hh id, sex, and age in each of the treatment groups. Are these means similar across groups? And if so what does that imply for randomization and ignorability? Is it enough to prove that the treatment was indeed randomized if we don’t know it from the experimenters?

Question 3    Average Treatment Eect (5 points)

Use the household dataset you obtained above, use the Neyman Estimator, denoted here as , to compute the average treatment effect for each treatment group comparing to the control group.  Name and briefly explain two assumptions in this experiment that allow us to compute the ATE.

Question 4    Variance and hypothesis testing (10 points)

Assuming that the experiment is a completely randomized experiment, give an es- timate of the ATE variance of the treatment effect of the Neighbors treatment

compared to the control group, using the Neyman variance estimator, denoted as

Var [].  In addition, conduct a two-sided hypothesis test against the null that the

ATE is 0, i.e.: H0 : τ = 0, with the alternative is H1 : τ  0, using the Z-statistic as your test statistic, i.e.:

^n( _ τ )

`Var [] .

Report both the value of Zn  and the p-value for the test.

Question 5    Randomization Inference (15 points)

Conduct a randomization inference hypothesis test on the experiment data for the sharp null hypothesis that Yi (neighbors) = Yi (control) for all i. Using Zn  as defined before as your test statistic, follow the steps below:

1.  Simulate the value of Zn  under the sharp null for at least N = 1000 iterations.

2. Plot the values you obtained as a histogram.

3. Add a marker for the observed value of Zn .

4. Report the two-sided p-value for the test.

Question 5.1    Compare hypothesis tests (5 points)

Briefly comment on the difference between the p-value you obtained using those two different strategies. Which is smaller? And what could this difference be due to?