Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

FNCE 90083

Data Analysis for Finance

2021

Part I (Dr. Inkmann) – 60 marks in total

Unless indicated otherwise, the questions below refer to the following application:

The impact of Founder-CEOs on Firm Performance

The authors of this paper are interested in the relationship between firm performance and founder-CEOs. A founder-CEO of a company is a CEO that was a founder of that company.

Data

The data consists of a 1992–1999 panel of publicly traded firms in the 1998 Fortune 500 index, excluding regulated financial firms and utilities, for which data are available on Standard and Poor's ExecuComp. From ExecuComp the authors obtain the names of the sample firms' CEOs, CEO ownership and tenure as CEO. Additional company variables are taken from Compustat.

The final sample consists of 2,128 firm-years of data for 321 firms observed over the 1992– 1999 period. The authors set a FounderCEO dummy in a given year equal to 1 if the current CEO is named as a founder or main executive at the time the company was formed in any of their  sources  (proxy  statements,  annual  reports,  internet…).  The  authors  also  collect information on the number of people who founded the company (Number of Founders) and the  proportion  of founders  that  died  before  1992  (Dead  Founders). A  founder-CEO  was

observed at least once over the sample period for 50 out of the 321 firms.

The authors use (the log of) a proxy for Tobin’s Q as a market-based performance measure (defined as the ratio of a firm’s market value to its book value) and the return on assets (ROA) as an accounting measure (defined as the ratio of net income to the book value of assets).

Empirical analysis

The authors first regress the firm performance measures on FounderCEO and covariates. The pooled OLS estimation results are given in Table 2 below.

The authors next argue that FounderCEO may be an endogenous variable. They adopt the following  empirical  strategy  to  address  this  problem:  (i)  Estimate  a  Probit  model  for

FounderCEO  using  a  set  of  instrumental  variables  (IV)  and  all  exogeneous  explanatory

variables of interest as explanatory variables. (ii) Compute the fitted value of FounderCEO from this Probit model. (iii) Use this fitted value as the single instrument in IV regressions of

firm performance on FounderCEO and covariates. Table 3 below shows the first-stage Probit estimates of the slope coefficients . The IV estimation results are not reported below.

 

 

 

 


Question I.1 (15 marks)

The authors use panel data for the regressions in Table 2. According to the notes of Table 2, the authors present “robust -statistics (clustered by firm)”.

A.   In general, what is the key advantage of using firm panel data?

B.   What might be the reason for the authors to present robust -statistics in this table?

C.   Against which statistical problems are these -statistics robust?

D.   How do these statistical problems affect the consistency of the pooled OLS estimator of the intercept and slope coefficients in these regressions?

E.   How do the authors address potential cross-sectional correlation in the error terms?

 

Question I.2 (18 marks)

Table 3 contains the first-stage Probit results related to the authors’ IV estimation approach.

A.   Explain why FounderCEO may be endogenous in the current application.

B.   Which instruments were employed by the authors?

C.   In your view, do you think these instruments are likely to fulfill the conditions for IV estimation? Explain .

D.   Based on the information given in Table 3, can you rule out weak instruments?

E.   How do you calculate the fitted value from a Probit model?

F.   Would it be possible to simply estimate the linear regressions by OLS after replacing the endogenous FounderCEO dummy variable with its fitted value from the first-stage Probit model in Table 3? Explain.



Question I.3 (12 marks)

The authors refer to an estimator proposed by Heckman (1978) for a linear regression model with an endogenous dummy variable. In Heckman’s model, the regression of interest is

 =  +   +     for  = 1, … ,  ,  = 1, … , ,

where  is a continuous dependent variable,  an endogenous dummy variable, and  a vector of exogenous explanatory variables. Heckman considers the following data generating process

 = 1( > 0), where  =   +  ,

where  is a subset of  (i.e. there are exclusion restrictions). The error terms  and  are assumed to be jointly normal distributed with correlation coefficient  , independently of  . Heckman shows that that

[ | ,  ] =  +   + ( ),

where  = 0 if  = 0 and

 

( ) =                   + (1 − )

 

Unlike Heckman’s sample selection model, ( , ) are all estimated from the full sample.

A.   Which assumption makes  an endogenous variable in this model?

B.   Propose a method to estimate the unknown parameters ( ,  , ) of this model.

C.   Can you use the standard formula for OLS standard errors for a -test of 0:  = 0? Explain.

D.   Discuss in detail how one could apply this model for the current application as an alternative to the authors’ IV estimation approach.


The final two questions are independent of the application considered earlier.

 

 

Question I.4 (6 marks)

A.   Show that the within estimator () and first difference estimator () are identical for  = 2.

 = (∑ ∑( − )′( − ))     ∑ ∑( − )′( − )

 = ( ( −  −1)′( −  −1))      ( −  −1)′( −  −1)

 

 

Question I.5 (9 marks)

A linear regression of the aggregate U .S. stock market return on the highest temperature recorded at the Central Park weather station in New York City in the preceding month yields an estimated slope coefficient of -0.03 with a t-value of 1.98. Some authors argue that “lower temperature can lead to aggression… [which] could result in more risk-taking… We therefore expect lower temperature to be related with higher stock returns.”

A.   Could you offer an alternative explanation for this result?

B.   Propose a hypothesis test (0  and test statistic) of your alternative explanation.

C.  How could you modify the regression equation to see whether your explanation holds?


Part II (Dr. Volkova)  40 marks in total

Problem II.1 (16 points)

This is a data.table object crsp with information on monthly stock records. For each      question below provide a piece of code that generates the requested result.  Specify all required steps.

A. Re-order crsp data.table according to three columns: SICCD, PERMNO, date. I.e. first order by SICCD, then suborder by PERMNO, then by date.

B. Create a new data.table crsp.midprice as a subsample of crsp data with companies which stock price was never below $5.00 and never above $25.00.

C. Create a new data.table company.siccd with three columns: SICCD, YEAR, N. Here N  equals to the number of unique companies in each SICCD -industry in each year in crsp data.table.

D. Make a plot with two lines of a different colour. The first (second) line should           correspond to the mean (median) stock price in crsp data on a given date. The x-axis corresponds to date variable. Use ggplot2 package.


Problem II.2 (12 points)

Data.table comp includes clean (dropped missing observations and winsorized)               Compustat data. In addition, it has a variable in.index which equals to 1 if a company

was included in Russell-1000 index that year. Provide a code that generates the requested result.

A. Estimate a regression of roa on just one variable — an interaction between the  in.index and growth variables. Save the results of the regression with “standard” standard errors in reg1 object. Use fixest package.

B. Estimate a regression of roa on three variables — in.index, growth and an    interaction between the in.index and growth variables. Save the results ofthe  regression with “standard” standard errors in reg2 object. Use fixest package.

C. Use modelsummary() to write the results of reg1 and reg2 into “regression.docx” file in the working directory.


Problem II.3 (12 points)

Function sample(x, size, replace) takes a random sample of the specified size from the elements of x using either with or without replacement.

A. Describe what function1() does. What is its output?

B. In your own words describe the meaning of columns, rows and values in Document- Term-Matrix.

C. What are the possible dimensions of dtm matrix in the example above.