Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

G53MLE-E1

SCHOOL OF COMPUTER SCIENCE

A LEVEL 3 MODULE, AUTUMN SEMESTER 2016-2017

MACHINE LEARNING (G53MLE)


Question 1: Foundations of Machine Learning [overall 34 marks]

(a)     (i) give the formula for a multivariate linear regressor with a 3rd degree polynomial and 2

variables. (ii) See the data in the table below of paired values x1 and x2. If the goal is to predict x2 from x1, what type of linear regressor would be used here? Give its general

formula (you don’t need to find the actual values of any weights or parameters).  (iii) Give the formula for the generalised linear basis function. (iv) Why would you want to introduce non-linear basis functions in linear regression?

x1

x2

0

2

5

29.5

10

107

15

234.5

20

412

25

639.5

30

917

(8 marks)

(b)     Consider a Linear Discriminant Analysis classifier with two parameters to learn a weight for –

one weight per parameter. Two different ways of learning the parameters of this algorithm are  brute  force  search  and  gradient  descent.  Describe  how  each  works  by  (i)  giving pseudocode and the formula for the update of gradient descent and (ii) pseudocode for brute force search, clearly addressing the range of values tested. (iii) Explain for both gradient descent and brute force search what the biggest drawback is in using them. (iv) Include a sketch illustrating how gradient descent works for a quadratic error function. Include in your sketch a visualisation of the termination criterion.

(14 marks)

(c)     Explain why in Data Mining one is never able to rely purely on machine-measurable objective

(6 marks)

(a)  (i) Draw a set of 2-dimensional linearly separable data points with binary labels, and clearly

(6 marks)

Question 2: Artificial Neural Networks and Deep Learning [overall 33 marks]

Below is given a training set of eruption duration and time to next eruption for two type of geyser eruptions of The Old Faithful. This will be used for question 2a.

X1: Eruption duration (min)

X2: Time to next eruption (min)

Y: Eruption

Type

3.6

79

1

1.8

54

2

3.3

74

1

2.3

62

3

4.5

85

1

2.9

55

2

4.7

88

1

3.6

85

1

2.0

51

3

4.4

85

3

1.8

54

2

(a)     Draw a diagram of an ANN’s topology that can learn this pattern based on the given data,

(6 marks)

(b)     Design a Deep-Learning architecture using Convolutional Neural Networks as one of a

(12 marks)

(c)     Explain how the ReLU revolutionised Deep Learning, by relating it to the concept of the

(11 marks)

(d)     Consider a CNN that applies a single channel convolutional layer with a 3x3 kernel to a

(4 marks)

 

Question 3: Graphs, Dynamics, and Decision Trees (33 marks)

(a)   In learning decision trees, one has to find for every node the query that maximises the

δi(N) = i(N) − PLi(NL) − (1 − PL)i(NR)

For the partially learned tree displayed below, with two classes named c1 and c2, calculate

(12 marks)

(b)   Below is drawn a second tree, with the decision rules written in each node. For this tree, (i)

(c)   Below are drawn two trees, with equivalent functionality (that is, every data point passed

(6 marks)

(d)   Below are given the three sets of sequence labels below of a 4-class problem (labels

belong either to class 0, 1, 2, or 3). (i) draw a state transition diagram for this problem. Include the probabilities of all transitions. Do not draw zero-probability transitions. (ii) provide the prior probabilities for each class.

[0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 3 3 3 0 0 0 0]

[0 0 0 1 1 1 2 2 2 2 2 2 3 3 3 3 3 0 0 0]

[0 0 0 1 1 1 2 2 1 1 1 2 2 2 3 3 3 3 0 0 0 ]

(7 marks)