Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

First Semester Examination

2019/2020 Academic Session

CDS503 - Machine Learning

1- (a)

(i)

Discuss two (2) reasons why data mining is becoming an important focus nowadays.

Bincangkan dua (2) sebab mengapa perlombongan data menjadi tumpuan periling pada masa kini.

(b)

(ii)

(iii)

(i)

(ii)

Contrast main characteristic between supervised and unsupervised learning.

Bandingkan satu ciri utama antara pembelajaran berpenyelia dan pembelajaran tanpa berpenyelia.

To evaluate the effectiveness of the classifier, the data is split into training and test data. In the condition of class label of the data is not O balanced, determine the best approach taken in handling the training and test data. Describe how it works.

Untuk menilai keberkesanan pengelas, data dibahagikan kepada data latihan dan data ujian. Dalam situasi label kelas data tidak seimbang, tentukan pendekatan terbaik yang diambil dalam mengendalikan data latihan dan data ujian. Terangkan bagaimana ia berfungsi.

(48/100)

Explain the reason of K-Nearest Neighbour (KNN) algorithm does more computation on test time rather than train time.

Jelaskan sebab algoritma K-Jiran Terdekat (KNN) melakukan lebih banyak perkomputeran pada masa ujian dan bukannya masa latihan.

o

Differentiate among Bayes theorem, NaTve Bayes and Bayesian Belief Network by explaining their approaches to the handling of probability.

Bezakan antara teorem Bayes, Naive Bayes dan Rangkaian Kepercayaan Bayes dengan menerangkan pendekatan mereka terhadap pengendalian kebarangkalian.

(24/100)

(c) (i) Decision Tree algorithm employs a greedy strategy in growing a tree.

Explain how the greedy strategy works by giving an example.

Algoritma Pepohon Keputusan menggunakan satu strategi tamak dalam mengembangkan pokok. Terangkan bagaimana strategi tamak itu berfungsi dengan member! satu contoh.

(ii) Suppose you are using RBF kernel in Support Vector Machine (SVM) with high Gamma value. Justify the use of Gamma parameter and its significance of high value.

Andaikan anda menggunakan kernel RBF dalam Mesin Vektor Sokongan (SVM) dengan nilai Gamma yang tinggi. Justifikasikan penggunaan parameter Gamma dan kepentingan nilai yang tinggi.

(28/100)

2. (a) Given the following data where x and y are the two input variables and Class is

the dependent variable as shown in Figure 1.

Diberikan data behkut yang x dan y ialah dua pembolehubah dan Class ialah pembolehubah bersandar seperti yang ditunjukkan dalam Rajah 1.

X

y

Class

-1

1

-

0

1

+

0

2

-

1

-1

-

1

0

+

1

2

+

2

2

-

2

3

+

Figure 1

Rajah 1

(i) Suppose you want to predict the class of new data point x = 1 and y = 1 using Euclidean Distance using K-Nearest Neighbour (KNN) with value of k = 3. Determine which class this data point will belong to. Justify your answer.

Andaikan anda ingin meramal kelas titik data baru x = 1 dan y = 1 menggunakan Jarak Euclidean dengan menggunakan K-Jiran Terdekat (KNN) dengan nilai k = 3. Tentukan kelas mana titik data ini tergolong. Justifikasikan jawapan anda.

(ii) Determine which class the data point x = 1 and y = 1 will belong to if the value of k = 7, Justify your answer.

Tentukan kelas mana titik data x = 1 dan y=1 akan tergolong jika nilai k= 7. Justifikasikan jawapan anda.

(24/100)

b)

Figure 2

Rajah 2

(i) Based on Figure 2(a), using Support Vector Machine (SVM), draw a hyperplane that makes the optimal margin. Justify your decision.

Berdasarkan Rajah 2(a), dengan menggunakan Mesin Vektor Sokongan (SVM), lukiskan hipersatah yang memaksimakan margin. Jelaskan keputusan anda.

(if) Based on Figure 2(a), label at least one (1) support vector for each class.

Berdasarkan Rajah 2(a), labelkan sekurang-kurangnya satu (1) vektor sokongan untuk setiap kelas.

(iii) Figure 2(b) shows that the training data has noise. Explain two (2) ways of SVM handling the outliers that give the best result.

Rajah 2(b) menunjukkan bahawa data latihan mempunyai pesisih. Terangkan dua (2) cara SVM mengendalikan pesisih yang memberikan hasil yang terbaik.

(32/100)

(c) Figure 3 shows a Decision Tree (DT).

Rajah 3 menunjukkan satu gambar rajah Pepohon Keputusan (DT).

Figure 3

Rajah 3

(i) Based on the Decision Tree (DT) shown in Figure 3, explain the reason of the feature 'Definite budget?' becomes the root of the Decision Tree.

Berdasarkan gambarajah Pepohon Keputusan (DT) yang ditunjukkan dalam Rajah 3, jelaskan sebab ciri 'Definite budget?' menjadi akar Pepohon Keputusan.

(ii) List the labels involved in this DT.

Senaraikan label-label yang terlibat dalam rajah DT ini.

(24/100)

(d). Two different suppliers, A and B, provide a manufacturer with the same component. All supplies of this component are kept in a large bin. 5% of the components supplied by A and 9% of the components supplied by B have been defective. A supplies four times as many components as B.

Suppose you reach into the bin and select a component, and find it is non-defective. Compute the probability that it was supplied by A.

Dua pembekal yang berbeza, A dan B, membekalkan pengeluar dengan komponen yang sama. Semua bekalan komponen ini disimpan dalam satu tong besar. 5% daripada komponen-komponen yang dibekalkan oleh A dan 9% daripada komponen-komponen yang dibekalkan oleh B telah rosak. A membekalkan empat kali ganda komponen-komponen B.

Katakan anda mencapai tong tersebut dan memilih satu komponen, dan mendapati ia tidak rosak. Kirakan kebarangkalian bahawa ia dibekalkan oleh A.

(20/100)

(a) A dataset consists of two classes containing five data points each as shown in Figure 4. Calculate the eigenvalue and eigenvector to transform the data points onto the new coordinate using linear discriminant analysis.

Sebuah set data terdiri daripada dua kelas yang mempunyai lima poin data seperti yang ditunjukkan dalam Rajah 4. Hitung nilai eigen dan vector eigen untuk mentransformasikan poin-poin data kepada koordinat baru menggunakan analisis diskriminasi linear.


(50/100)

(b) Given a two-dimensional dataset as follows. Suppose the centroids are (4,3) and (4,4), calculate the new centroids of the clusters after K-mean method is applied for one iteration.

Diberikan set data dua dimensi seperti berikut. Andai sentroid adalah (4,3) dan (4,4), hitung sentroid baru kluster-kluster setelah kaedah K-mean diaplikasikan untuk satu lelaran.

(50/100)

A real estate dataset contains records of house prices and the houses attributes as follows: number of bedrooms and bathrooms, areas in square feet, number of floors, view, conditions, year of built and renovated. The correlation matrix and the visual summary of the attributes are given as follows.

Sebuah set data hartanah mengandungi rekod-rekod harga rumah dan atributnya adalah seperti: jumlah biliktidurdan bilik mandi, keluasan dalam kaki persegi, jumlah tingkat, permandangan, keadaan, tahun dibina dan ubahsuai. Matriks korelasi dan ringkasan visual atribut-atribut diberikan seperti berikut.