Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

QBUS6860  Individual Assignment:

Value:          45%

Due Date:     4pm Friday 23 September 2022

Rationale

This assignment has been designed to help students develop basic skills in data visualisation and to allow students to practice techniques learned in lectures and tutorials.

Key Admin Information

1.   Required submissions:

a.   ONE  written  report  (word  or  pdf  format,  through  Canvas-  Assignment  1 Report Submission).

b.   SEVERAL  Python .py” or Jupyter  Notebook ipynb” files and any necessary data files (through Canvas- Assignment 1 - Upload Your Program Code Files).

2.   The late penalty for the assignment is 5% of the assigned mark per calendar day, starting after 4pm on the due date 23 September 2022. Friday 30 September 2022, 4:00 pm is the closing date. Any submission later than the closing time/date will NOT be accepted for marking.

3.   Length:  The  main  text  of  your  report  (including  everything  except  for  possible appendices) should have a maximum of 10 pages in 12-point Times New Roman (or Calibri) fonts and single line spacing, including all the plots, figures and tables (if any). For each Task, you should write sufficient and complete information in the report with necessary  plots  based  on  your  visualisation,  methodology,  analysis,  insight  and limitations, etc, when  possible. The cover  pages and appendices are  NOT counted towards the 10 page limit.

4.    Numbers with decimals should be reported to the Two-decimal point in the report.

5.   If you wish to include additional materials, you can do so by creating an appendix. There is no page limit for the appendix. Keep in mind that making good use of your audience’s time is an essential business skill. Extraneous and/or wrong material will potentially affect your mark.

6.   Anonymous marking: Given the anonymous marking policy of the University, please only include your student ID (SID) in the submitted report, and do NOT include your name. The file  name  of your  report  should follow the following format.  Replace "XXXX"    with   your    SID    in,   for    example,    QBUS6860_2022S2_SIDXXXXX.pdf    or QBUS6860_2022S2_SIDXXXXX.docx.     For  your   notebooks,   please   name  them   as TaskA_SIDXXXX.ipynb and TaskB_SIDXXXX.ipynb respectively.

7.   Presentation  of the  assignment  is  part  of the  assessment. Certain  marks  may  be deducted for low quality writing or lack of clarity in presentation.

8.   For Turnitin to check your code, please copy and paste your codes into Appendix. Code should be formatted by equal width fonts such as Courier New or Consola in 10- point font size.

If your programs are in py file, simply copy and paste into the report Appendix.  If you are  using  Jupyter  Notebook,  please  follow  the  instruction  (InstructionPY.pdf  on

Canvas) to convert it to py” files first then copy the created py files into Appendix of the report.

Missing code (Task A and/or Task B) in the appendix of the report will result in losing 50% awarded marks of Task A and/or Task B, respectively.

Key Rules

•   Carefully read the requirements for each part of the assignment.

•   Please  follow  any  further  instructions  announced  on  Canvas.   Failure  to   read information and follow instructions may lead to loss of marks. Furthermore, note that it is your responsibility to be informed of the University of Sydney and Business School rules and guidelines, and follow them,

see https://canvas.sydney.edu.au/courses/9993/pages/submitting-assignments

•   You must use Python for the tasks of the assignment.

•   Reproducibility is fundamental in data analysis, so that you make sure you submit the right Python py file(s) or Jupyter Notebook ipynb files that generate the results in your report. Markers will run your program for checking.

•   The  University of Sydney takes  plagiarism very SERIOUSLY.  Please  be warned that plagiarism between individuals/groups is always obvious to the markers and can be easily detected by Turnitin.

•    Not submitting your code will lead to a loss of 50% of the awarded marks.

•   Referencing: Business School recommends APA Referencing System. (You may find the details at:  https://libguides.library.usyd.edu.au/citation/apa7  )

•   Feedback will be provided on the marked submission.

Warning:   Your submission time will  be the time of the  last submission of the Two components  (the  report  and  the  code)  to  Canvas.  For  example,  if  any  one  of  two components  is  submitted  later  than  due  time/day,  the  entire  submission  of  your assignment will be regarded as a late submission and will be subject to a late penalty accordingly. If you want to re-submit any missing items/components after the official due date has passed, you will receive the late penalty.

Task A (40 Marks)

This task is designed for you to practice your skills in managing data and conducting basic Visual Data Analytics (VDA) and Exploratory Data Analysis (EDA).

Background

Formula  1  is  the  highest  class  of  single-seater  auto  racing  regulated  by  the  Fédération Internationale de l'Automobile (FIA) and owned by the Formula One Group. The FIA Formula One World Championship has been one of the most innovative forms of racing around the world since its first season in 1950. The word "formula" in the name refers to the set of rules to which all participants' cars must conform. A Formula One season consists of a series of races, known as Grands Prix, which take place worldwide on purpose-built circuits and on public roads. You may do a quick research on https://en.wikipedia.org/wiki/Formula_One

to understand its rules and points system. This information is helpful for you to complete this task.

Resources

https://www.formula1.com/en/results.html collects all the F1 races results for all the years. For example, you can click 2021 in the above page to go to the 2021 result page from which you can get access to the information of races, drivers and teams etc.

You may re-use part of lecture or tutorial codes and revise it for your purpose here.

Subtasks

You shall focus on all the races in 2021, see

https://www.formula1.com/en/results.html/2021/races.html.

1.   First           use            python           code           to           get           the           table           in https://www.formula1.com/en/results.html/2021/races.html  showing the winner and the winning time for each of 22 races between 28 March 2021 and 12 December

2021.   Draw a bar chart to show the winning time for all the 22 races in the year. Describe how you make a more informative plot and the reason why you do this in your report.

2.   From the table in the above page, the first column has URL links to race result. For example, the first URL is

https://www.formula1.com/en/results.html/2021/races/1064/bahrain/race- result.html

Either manually or automatically (using python code) get all the URLs for 22 races of the year. Report at least three URLs and describe these races such as time and location etc in your report.  If you manually obtain the URLs (i.e. looking through the webpage to read out/get them one by one) without using python code, please describe how this can be done with a scraping method.

3.   On the left panel of the race-result page, there is a link to FAST LAPS information. The fast lap page URL can be obtained by replacing race-result.html with fastest- laps.html. Write your own python code in your notebook to scrape all the Fastest- laps results for 2021 from each URL of 22 fastest-laps.html (all the URLs can be easily formed by replacing race-result.html with fastest-laps.html in the above subtask 2). The table in fastest laps page contains information such as Position, Driver No, Driver Names, Cars, Laps, Time of Day, Time and Average (AVG) Speed. Draw a plot to show the average speed for each of the drivers in 22 races. Here the average speed of a driver is the average value of the driver’s 22 AVG Speeds on the fastest lap.  In your report, describe the information you have gathered and explain your methods with some key code snippets if necessary.

4.   The point information from 22 race results tables has been merged for you in a csv file ( season_results2021.csv) in which the columns contain the points earned by drivers in each race with locations as column names in additional to driver names column and the car name column. Use python to draw a nice line plot to show the cumulative points (as the y-axis) of all the drivers against the races (as the x-axis) from

28 March 2021 and 12 December 2021 (i.e., the order of days that the races take place). In your report, explain your methods and all the features used (like colors, legends etc) and present your visual product along with necessary description and explanation.

Always  keep  in  mind  the  visual  presentation  should  be  meaningful  and  visually pleasing.

5.   Conduct appropriate analysis, summarise and report your insights/conclusion.

Task B (60 Marks)

This task is designed for you to practice data-based storytelling by conducting basic Visual Data Analytics (VDA) and Exploratory Data Analysis (EDA).

Background

Gapminder Foundation https://www.gapminder.org is a non-profit venture registered in Stockholm, Sweden, that promotes sustainable global development and achievement of the United  Nations  Millennium  Development  Goals  by  increased  use  and  understanding  of statistics and other information about social, economic and environmental development at local, national and global levels.

Resources

You    will    be    given    the    following    datasets    which    can    be    downloaded    from https://www.gapminder.org/data/ via, for example, Select an indicator>Economy.

1.   life_expectancy_years.csv:     Health > Life expectancy

2.   gdppercapita_us_inflation_adjusted .csv:    Economy>Income &  Growth  > GDP / Capital (US$ inflation_adjusted)

3.   hdi_human_development_index .csv:  Society > Human Development Index

4.   income_per_person_gdppercapita_ppp_inflation_adjusted.csv: Economy > Income & Growth > Income

5.   total_health_spending_percent_of_gdp.csv:  Health > Health Economy > Total Health spending (% of GDP)

6. world_regions.csv

The Task

The main objective is to enhance our understanding regarding the relationship among the metrics of GDP growth aligned with Health spending, Income, Human Development Index (HDI) and Life Expectancy of different countries by visual data analytics.

1.   Conduct a thorough analysis over all the datasets,  report and explain all the  key statistics. Do the necessary clean-up for visualisation.

2.   Choose  two  appropriate  visualisation  types  (or  more)  to  answer  the  following questions or reveal the visual facts as the answer to the following questions.  (i) What is the effect of GDP on other  metrics?   (ii)  How are those  metrics distributed for different countries or regions?  For the second question, you can take a strategy by choosing one country from Africa, one country from Europe, and one country from Asia to compare to Australia (or a small group of countries for each region).  A region data file has been provided for your convenience.  In your report, please also describe how to produce your plots.

3.   Summarise your findings, observations, insights and conclusions etc  based on the visualisation analysis in your report.

Note:

1.   To have a better story with more thorough analysis, you may explore more data from gapminder in addition to the given dataset (you must analyse the given datasets). If you have used extra datasets from gapminder, please submit your own dataset with your notebook programs.

2.   Your program must be done in Python. The code used for analysis and visualisation should be well presented in a separate notebook with sufficient comments so that the reader can easily understand your methods.

3.   You shall regard this as your own small research project. Think carefully and do it thoroughly. Do not expect you can complete this in one day, so you need to plan it earlier.  You  may  refer  to  a  sample  project  at  https://github.com/jmlcode/p1- investigate-datasets.