Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Second Semester Examination

2018/2019 Academic Session

CDS503  Machine Learning

1.     (a)    Assume you are the owner of a company which sells music (e.g., songs, concert recordings, CD) online.

Anggapkan  anda  ialah  pemilik  sebuah  syarikat yang  menjual  muzik (contoh: lagu, rakaman konsert, CD) dalam talian.

(i)     Formulate a supervised machine learning problem to help to make your business more successful.

Rumuskan masalah pembelajaran mesin berselia untuk membantu menjadikan perniagaan anda lebih berjaya.

(ii)     Formulate an unsupervised machine learning problem to help make

your business more successful.

Rumuskan  masalah  pembelajaran  mesin  tidak  berselia  untuk membantu menjadikan perniagaan anda lebih berjaya.

(4/100)

(b)    Consider learning a target function of the form y = f(x) with 3 discrete

values (label space) defined over the two-dimensional plane using the following learning algorithms:

i.       Naïve Bayes

ii.      K-nearest neighbour (KNN)

iii.     Support vector machine (SVM)

Briefly explain (in two or three sentences) how each learning algorithm works in classification and whether it is categorized as a parametric or non-parametric learning algorithm.

Pertimbangkan pembelajaran fungsi sasaran bentuk y = f (x) dengan 3 nilai diskret (ruang label) yang ditakrifkan pada satah dua dimensi dengan menggunakan algoritma pembelajaran berikut:

i.       Bayes naif

ii.      Kjiran terdekat (KNN)

iii.     Mesin vektor sokongan (SVM)

Terangkan secara ringkas (dalam dua atau tiga ayat) bagaimana setiap algoritma pembelajaran  berfungsi dalam  klasifikasi dan  sama  ada  ia dikategorikan sebagai algoritma pembelajaran berparameter atau bukan berparameter.

(10/100)

(c)    Assume we have a set of data from patients who have visited the USM hospital during the year 2018. A set of features (e.g., temperature, height) have been also extracted for each patient. Our goal is to decide whether a new visiting patient has any of diabetes, heart disease, or Alzheimer (a patient can have one or more of these diseases).

Anggapkan kita mempunyai satu set data dari pesakit yang telah melawat hospital  USM  pada  tahun   2018.   Satu  set  ciri  (contohnya,  suhu, ketinggian)juga telah diekstrak untuk setiap pesakit. Matlamat kita adalah untuk  memutuskan  sama  ada  seseorang  pesakit  baru  mempunyai diabetes, penyakitjantung atau Alzheimer (pesakit boleh mempunyai satu atau lebih daripada satu penyakit tersebut).

(i)     We have decided to use a support vector machine (SVM) to solve this  problem.  We  have  two  choices:  1)  train  a  separate  binary classifier for  each  disease  (i.e.,  one  binary  classifier to  identify diabetes, one binary classifier to identify heart disease, and one binary classifier to identify Alzheimer) or 2) train one single multi- class classifier to distinguish the three diseases. Which method is more suitable? Justify your answer.

Kita telah memutuskan untuk menggunakan mesin vektor sokongan (SVM)  untuk  menyelesaikan  masalah  ini.  Kita  mempunyai  dua pilihan: 1) melatih pengelas perduaan yang berasingan untuk setiap penyakit  (iaitu,  satu  pengelas  perduaan  untuk  mengenal  pasti diabetes, satu pengelas perduaan untuk mengenal pasti penyakit jantung,   dan  satu  pengelas  perduaan   untuk  mengenal  pasti Alzheimer)  atau  2) melatih  satu pengelas berbilang kelas  untuk membezakan tiga penyakit tersebut. Kaedah manakah yang lebih sesuai? Jelaskan jawapan anda.

(ii)     Some patient features are expensive to collect (e.g., brain scans)

whereas  others  are  not  (e.g., temperature).  Therefore, we  have decided to first ask our classification algorithm to predict whether a patient has a disease, and if the classifier is 80% confident that the patient has a disease, then we will do additional examinations to collect additional patient features. In this case, which classification method do you recommend: k-nearest neighbour, decision tree or naïve Bayes? Justify your answer in one or two sentences.

Sesetengah ciri-ciri pesakit memakan belanja yang banyak untuk dikumpul (contoh: imbasan otak) manakala yang lain tidak (contoh: suhu).  Oleh  itu,  kita  telah  membuat  keputusan  untuk  meminta algoritma  klasifikasi  kita  untuk  meramalkan  sama  ada  pesakit mempunyai penyakit terlebih dahulu, dan jika pengelas adalah 80% yakin  bahawa  pesakit  mempunyai  penyakit,  maka  kita  akan melakukan pemeriksaan  tambahan  untuk mengumpulkan  ciri-ciri tambahan daripada pesakit. Dalam kes ini, apa kaedah klasifikasi yang anda cadangkan: k jiran terdekat, pepohon keputusan atau Bayes naif? Jelaskan jawapan anda dalam satu atau dua ayat.

(6/100)

2.     (a)    Consider the following set of training examples. What is the information gain of A1 and A2 relative to these training examples? Show step-by-step including the intermediate results how you compute the information gain.

(Note that we define 0 log2 0 = 0)

Pertimbangkan  satu  set  contoh  latihan  berikut.  Apakah  keuntungan maklumat A1  dan A2 berdasarkan  set contoh latihan ini?  Tunjukkan langkah demi langkah termasuk keputusan pertengahan bagaimana anda mengira keuntungan maklumat.

(Perhatikan bahawa kami mentakrifkan 0 log2 0 = 0)

Instance

Class

A1

A2

1

+

T

T

2

+

T

T

3

-

F

F

4

+

T

F

5

-

F

T

6

-

F

T

 

(15/100)

(b)    Based on the information gain of A1 and A2 you have computed in 2(a),

which attribute will be used to split the decision tree? Justify your answer.

Berdasarkan  keuntungan maklumat A1  dan A2 yang anda  telah kira dalam  2(a),  apakah  ciri yang  akan  digunakan  untuk  membahagikan pepohon keputusan? Jelaskan jawapan anda.

(5/100)

(c)    Draw the decision tree (full) for the training dataset shown in 2(a) using the information gain criteria.

Lukis pepohon keputusan (penuh) untuk set data latihan yang ditunjukkan dalam 2(a) menggunakan kriteria keuntungan maklumat.

(5/100)

(d)    Supposed we have the following validation set.

Andaikan kita mempunyai set pengesahan yang berikut.

Instance

Class

A1

A2

1

+

F

T

2

+

T

F

3

-

F

F

4

+

T

F

5

-

T

T

(i)     What will be the training set error and validation set error of the decision  tree  in  2(c)?  Express  your  answer  as  the  number  of examples that would be misclassified.

Apakah  kesilapan  set  latihan  dan  kesilapan  set  pengesahan pepohon keputusan dalam 2(c)? Nyatakan jawapan anda sebagai bilangan contoh yang akan dikelaskan salah.

(ii)    What would be the accuracy when the decision tree model in 2(c) is

evaluated on this validation set? Show your confusion matrix and how you compute accuracy.

Apakah ketepatan apabila model pepohon keputusan dalam 2(c) dinilai pada set pengesahan ini? Tunjukkan matriks kekeliruan anda dan bagaimana anda mengira ketepatan.

(5/100)

3.     (a)    Supposed you have implemented a linear regression to predict housing prices. However, when you test your hypothesis on a new set of houses, you find that it makes unacceptably large errors in its predictions. What should you try next to improve the performance of the learning algorithm? Explain the rationale of the strategy you picked in terms of variance and bias.

Andaikan  anda  telah  melaksanakan  regresi linear untuk meramalkan harga rumah. Bagaimanapun, apabila anda menguji hipotesis anda pada satu set rumah baru, anda mendapati bahawa ia membuat kesilapan yang tidak dapat diterima dalam ramalannya. Apakah yang perlu anda cuba untuk memperbaiki prestasi algoritma pembelajaran? Jelaskan rasional strategi yang anda pilih dari segi varians dan bias.

(5/100)

(b)    Ensembles use multiple classifiers to make decisions.

Kaedah  ensembel menggunakan  beberapa pengelas  untuk membuat keputusan.

(i)     Identify what properties should a set of base classifiers have to form a good ensemble.

Kenal pasti apakah ciri-ciri yang sepatutnya ada pada sekumpulan pengelas asas untuk membentuk ensembel yang baik.

(ii)     Ensembles  have  been  quite successful  in generating supervised

learning systems which exhibit very high accuracies. Explain why it is better to use a team of diverse base classifiers rather than a single classification algorithm.

Kaedah ensembel telah berjaya menghasilkan sistem pembelajaran berselia  yang  memperlihatkan   ketepatan  yang  sangat  tinggi. Jelaskan  mengapa  kaedah  menggunakan  sekumpulan pengelas asas yang pelbagai adalah lebih baik daripada algoritma pengelas tunggal.

(iii)    Describe  the  key  idea  of  boosting  in  general.  Provide  two  (2)

examples of boosting algorithms.

Terangkan idea utama penggalakan secara umum. Berikan dua (2) contoh algoritma penggalakan.

(10/100)

(c)    The algorithm that we use to do association rule mining is the Apriori algorithm.

Algoritma yang kita gunakan untuk perlombongan peraturan sekutuan ialah algoritma Apriori.

(i)     The Apriori algorithm is efficient because it relies on and exploits the Apriori principle. Define the Apriori principle.

Algoritma Apriori adalah  cekap  kerana  ia  bergantung pada  dan mengeksploitasi prinsip Apriori. Takrifkan prinsip Apriori.

(ii)    We generally will be more interested in association rules with high

confidence. However, often we will not be interested in association rules that have a confidence of 100%. Explain why.

Then specifically explain why association rules with 99% confidence may be interesting. What might they indicate?

Secara  umumnya,  kita  akan  lebih  berminat  dengan  peraturan sekutuan dengan keyakinan yang tinggi. Walau bagaimanapun, kita biasanya  tidak akan  berminat dengan peraturan  sekutuan yang mempunyai keyakinan 100%. Terangkan mengapa.

Kemudianjelaskan mengapa peraturan sekutuan dengan keyakinan 99%  mungkin  menarik.  Apa  yang  mungkin   ditunjukkan   oleh peraturan ini?

(10/100)

4.     (a)    Discuss the  basic difference  between the  agglomerative and divisive hierarchical clustering algorithms.

Bincangkan perbezaan asas antara algoritma pengelompokan hierarki aglomeratif dan pecah belah.

(5/100)

(b)    Use complete linkage agglomerative clustering (hierarchical clustering) to

group the data described by the following distance matrix. Show the step- by-step  computation  using  the  distance  matrix  and  draw  the  final dendrogram.

Gunakan pengelompokan aglomeratif pautan lengkap (pengelompokan hierarki)  untuk mengelompokkan  data yang  diterangkan  oleh  matriks jarak  berikut.   Tunjukkan  pengiraan  langkah  demi  langkah  dengan menggunakan matriks jarak dan lukis dendrogram yang muktamad.

Distance matrix

Matriks Jarak

 

A

B

C

D

E

A

0

 

 

 

 

B

9

0

 

 

 

C

3

7

0

 

 

D

6

5

9

0

 

E

11

10

2

8

0

 

(20/100)