Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

Lab 2  Classification Models

•    You will need to find a dataset for this lab. You may use the same data for your labs and project. In that case, the analyses you complete in this lab may be included as part of your project report in the end.

•   Using RapidMiner, build 2 classification models (any model among logistic regression, decision tree, random forest, k-NN, naïve Bayes) for the data.

•   For each model:

o Describe any data preparation you did.

o Include a snapshot for the model.

o Include the confusion matrix and performance metrics such as accuracy, precision, recall, and F1-score.

•    Compare the performance metrics between the models (Which model performs better? Are there significant differences? etc).

•    You may work in groups of up to 3 people (or work alone) for this lab.

•    Notes: It is recommended that you find a clean dataset (not needing too much data preparation as this can be very time-consuming).

•    People in the past tend to use datasets stored in one csv or xlsx file, without too many missing values, and having the target and predictor variables needed.

•    Some datasets people have used in past:

o Superstore data (see Canvas)

https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

https://www.kaggle.com/neuromusic/avocado-prices

https://www.kaggle.com/jessicali9530/honey-production

•    Examples of other data sources:

o Datasets used in class (e.g. Superstore data)

o Kaggle

o UCI Machine Learning Repository

o A list compiled by someone:https://github.com/awesomedata/awesome-public- datasets#datachallenges

o Data provided by corporations (Yelp, Airbnb, Wal-Mart,

etc):https://www.springboard.com/blog/free-public-data-sets-data-science-project/