BlueSky Statistics User Guide

BlueSky Statistics is an easy-to-use and powerful menu-based system for data science. Its menus and dialog boxes make quick work of graphs and analysis, without having to learn to program. However, behind the scenes, it writes programs using the powerful R language. It can show you the code it writes, allowing you to learn R and modify what it is doing. R programmers can easily add menus and dialog boxes to add features to BlueSky.

Cover design by Kiran Rafiq.

This book is written in a clear style that assumes little background in statistics or machine learning. It is available only in printed form from Lulu.com. It includes:

  • An introduction covering the basics to get you going quickly
  • Setting output styles (journal style vs. spreadsheet-style), and graph themes
  • Step-by-step instructions for most types of graphs and analyses available in the software
  • How to interpret each graph and set of output
  • Details of the Analysis Window, Datagrid, Output Window, and Model Scorer
  • Comparison of the Model Fitting and the Model Tuning menus
  • Extensive cross-referencing to help you relate one topic to another
  • Extensive index allowing you to quickly search by topic, or by R function or R package.
  • A glossary of BlueSky terminology
Click to zoom.

Table of Contents

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Choosing a Version . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Installing BlueSky Statistics . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Getting Started with BlueSky . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5 History Menu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6 Getting Help . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6.1 Visiting the BlueSky Website . . . . . . . . . . . . . . . . 10
1.6.2 About . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6.3 The Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6.4 Technical Support . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.7 Your Next Steps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 File Menu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1 New Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 New Output Window . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Open . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.1 Opening a Comma Separated Values File . . . . . . 20
2.3.2 Opening an R Dataset . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Open Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5 Paste Dataset from the Clipboard . . . . . . . . . . . . . . . . . . . . 23
2.6 Load Dataset from a Package . . . . . . . . . . . . . . . . . . . . . . . . 24
2.7 Import Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.7.1 SQL Database . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.8 Save & Save As . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.9 Save As PDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.10 Recent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1 Using the Output Window. . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Controlling Output Options . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Using the Output Navigator . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4 Managing Multiple Output Windows . . . . . . . . . . . . . . . . . 30
3.5 The Layout Menu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.5.1 Horizontal Layout . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.5.2 Vertical Layout . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.5.3 Show / Hide Output Navigator Menu Item . . . . 31
3.6 The Edit Menu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4 Data Menu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1 Add ID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 Bin Numeric Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.3 Compute Dummy Variables . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.4 Compute New Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.4.1 Compute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.4.2 Compute, Apply a Function Across All Rows . . 39
4.4.3 Conditional Compute, if/then . . . . . . . . . . . . . . . . 41
4.4.4 Conditional Compute, if/then/else . . . . . . . . . . . . 41
4.5 Concatenate Multiple Variables (handling missing values) 44
4.6 Convert Variable(s) to factors . . . . . . . . . . . . . . . . . . . . . . . . 44
4.7 Dates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.7.1 Convert Dates to Strings . . . . . . . . . . . . . . . . . . . . 45
4.7.2 Convert Strings to Dates . . . . . . . . . . . . . . . . . . . . 45
4.7.3 Date Order Check . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.8 Delete Variable(s) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.9 Factor Levels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.9.1 Add New Levels . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.9.2 Display Levels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.9.3 Drop Unused Levels . . . . . . . . . . . . . . . . . . . . . . . . 48
4.9.4 Label \NA” as Missing . . . . . . . . . . . . . . . . . . . . . . 48
4.9.5 Lumping Into \Other” . . . . . . . . . . . . . . . . . . . . . . 49
4.9.6 Reorder by Count . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.9.7 Reorder by Occurrence in Dataset . . . . . . . . . . . . 50
4.9.8 Reorder by One Other Variable . . . . . . . . . . . . . . 50
4.9.9 Reorder Levels Manually . . . . . . . . . . . . . . . . . . . . 51
4.9.10 Specify Levels to Keep or Replace by \Other” . . 51
4.10 Missing Values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.10.1 Remove NAs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.10.2 Missing Values, basic . . . . . . . . . . . . . . . . . . . . . . . 53
4.10.3 Missing Values, formula . . . . . . . . . . . . . . . . . . . . . 53
4.10.4 Replace All Missing Values, factor and string
variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.10.5 Missing Values, models imputation . . . . . . . . . . . 54
4.11 Rank Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.12 Recode Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.13 Standardize Variable(s) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.14 Transform Variable(s) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.15 Aggregate to Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.16 Aggregate to Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.17 Expand Dataset by Weights . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.18 Find Duplicates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.19 Merge Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.20 Refresh Datagrid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.21 Reload Dataset from File . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.22 Reorder Variables in Dataset Alphabetically . . . . . . . . . . . 66
4.23 Reshape . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.23.1 Reshape, long to wide . . . . . . . . . . . . . . . . . . . . . . 67
4.23.2 Reshape, wide to long . . . . . . . . . . . . . . . . . . . . . . 68
4.24 Sample Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.25 Select First or Last Observations Within Groups . . . . . . . 69
4.26 Sort Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.27 Sort to Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.28 Split Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.28.1 For Group Analysis . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.28.2 For Partitioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.29 Stack Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.30 Subset Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.31 Subset Dataset to Output . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.32 Transpose Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.33 Legacy Data Management . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.33.1 Aggregate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.33.2 Sort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.33.3 Subset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5 Graphics Menu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1 Plots of Counts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2 Setting the Order of Bars, Boxes, Etc. . . . . . . . . . . . . . . . . 78
5.3 Graphics Settings & Themes . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.4 Graph Titles, Labels, & Options . . . . . . . . . . . . . . . . . . . . . 81
5.5 Facets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.6 Axes: to Free or Not to Free? . . . . . . . . . . . . . . . . . . . . . . . . 82
5.7 Missing Values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.8 Bar Chart, counts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.9 Bar Chart, means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.10 Box Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.11 Bullseye Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.12 Contour Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.13 Coxcomb Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.14 Density Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.15 Density Plot, counts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.16 Frequency Charts, factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.17 Frequency Charts, numeric . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.18 Heat Map . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.19 Histogram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.20 Line Chart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.21 Line Chart, stair step . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.22 Line Chart, variable order . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.23 Pie Chart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.24 Plot of Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.25 P-P Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.26 Q-Q Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.27 Scatter Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
5.28 Scatter Plots, binned-hex . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
5.29 Scatter Plots, binned-square . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.30 Stem and Leaf Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
5.31 Violin Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
5.32 Maps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.33 U.S. County Map. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
5.33.1 U.S. State Map . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.33.2 World Map . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
6 Analysis Menu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
6.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
6.1.1 One-tailed vs. Two-tailed Tests . . . . . . . . . . . . . . 151
6.1.2 Paired vs. Non-Paired Tests . . . . . . . . . . . . . . . . . 152
6.1.3 Parametric vs. Non-Parametric Tests . . . . . . . . . 152
6.2 Agreement Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
6.2.1 Bland-Altman Plots . . . . . . . . . . . . . . . . . . . . . . . . 153
6.2.2 Cohen’s Kappa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
6.2.3 Concordance Correlation Coecient . . . . . . . . . . 157
6.2.4 Diagnostic Testing . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.2.5 Fleiss’ Kappa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
6.2.6 Intraclass Correlation Coecient . . . . . . . . . . . . . 161
6.3 Cluster Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.3.1 Hierarchical Cluster . . . . . . . . . . . . . . . . . . . . . . . . 164
6.3.2 K-Means Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
6.4 Contingency Tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
6.4.1 Crosstab, List . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
6.4.2 Crosstab, Multi-way . . . . . . . . . . . . . . . . . . . . . . . . 171
6.4.3 Odds Ratios, M by 2 table . . . . . . . . . . . . . . . . . . 172
6.4.4 Relative Risks, M by 2 table . . . . . . . . . . . . . . . . . 174
6.4.5 Legacy: Crosstab, Two-way . . . . . . . . . . . . . . . . . . 175
6.5 Correlation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
6.5.1 Correlation Matrix . . . . . . . . . . . . . . . . . . . . . . . . . 177
6.5.2 Correlation Test, one pair . . . . . . . . . . . . . . . . . . . 177
6.5.3 Correlation Test, multi-variable . . . . . . . . . . . . . . 179
6.6 Factor Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.6.1 Factor Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.6.2 Principal Components Analysis . . . . . . . . . . . . . . 187
6.7 Market Basket Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
6.7.1 Basket Data Format . . . . . . . . . . . . . . . . . . . . . . . . 192
6.7.2 Display Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
6.7.3 Multi-line Transaction Format . . . . . . . . . . . . . . . 199
6.7.4 Multiple Variable Format . . . . . . . . . . . . . . . . . . . 203
6.7.5 Plot Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
6.8 Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
6.8.1 T-test, independent samples . . . . . . . . . . . . . . . . . 207
6.8.2 T-test, independent samples (two numeric
variables) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
6.8.3 T-test, one sample . . . . . . . . . . . . . . . . . . . . . . . . . . 211
6.8.4 T-test, paired samples . . . . . . . . . . . . . . . . . . . . . . 212
6.8.5 ANCOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
6.8.6 ANOVA, one-way and two-way . . . . . . . . . . . . . . 215
6.8.7 ANOVA, one-way with blocks . . . . . . . . . . . . . . . . 221
6.8.8 ANOVA, one-way with random blocks . . . . . . . . 227
6.9 Missing Values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
6.9.1 Analysis of Missing Values, column output . . . . 232
6.9.2 Analysis of Missing Values, row output . . . . . . . . 233
6.10 Non-Parametric Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
6.10.1 Chi-squared Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
6.10.2 Friedman Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
6.10.3 Kruskal-Wallis Test . . . . . . . . . . . . . . . . . . . . . . . . . 237
6.10.4 Wilcoxon Test, independent samples . . . . . . . . . . 237
6.10.5 Wilcoxon Signed-Rank Test, one sample . . . . . . . 239
6.10.6 Wilcoxon Test, paired samples . . . . . . . . . . . . . . . 240
6.11 Proportions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
6.11.1 Binomial Test, single sample . . . . . . . . . . . . . . . . . 241
6.11.2 Proportion Test, independent samples . . . . . . . . . 242
6.11.3 Proportion Test, single sample . . . . . . . . . . . . . . . 243
6.12 Reliability Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
6.12.1 Reliability Analysis, Cronbach’s Alpha . . . . . . . . 245
6.12.2 Reliability Analysis, McDonald’s Omega . . . . . . 247
6.13 Summary Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
6.13.1 Compare Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . 251
6.13.2 Explore Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
6.13.3 Frequency Table . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
6.13.4 Frequency Table, top N . . . . . . . . . . . . . . . . . . . . . 254
6.13.5 Numerical Statistical Analysis . . . . . . . . . . . . . . . 255
6.13.6 Numerical Statistical Analysis, using describe . . 255
6.13.7 Shapiro-Wilk Normality Test . . . . . . . . . . . . . . . . 255
6.13.8 Summary Statistics, by Group . . . . . . . . . . . . . . . 257
6.13.9 Summary Statistics, all variables . . . . . . . . . . . . . 258
6.13.10 Summary Statistics, selected variables . . . . . . . . 258
6.13.11 Advanced Summary Statistics, all variables,
control levels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
6.13.12 Advanced Summary Statistics, selected
variables, control levels . . . . . . . . . . . . . . . . . . . . . . 260
6.14 Survival Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
6.14.1 Kaplan-Meier Estimation, compare groups . . . . . 260
6.14.2 Kaplan-Meier Estimation, one group . . . . . . . . . . 261
6.15 Tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
6.15.1 Basic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
6.15.2 Advanced . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
6.16 Time Series Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
6.16.1 Automated ARIMA . . . . . . . . . . . . . . . . . . . . . . . . 269
xiv Contents
6.16.2 Exponential Smoothing . . . . . . . . . . . . . . . . . . . . . 270
6.16.3 Holt-Winters, seasonal . . . . . . . . . . . . . . . . . . . . . . 272
6.16.4 Holt-Winters, non-seasonal . . . . . . . . . . . . . . . . . . 272
6.16.5 Plot Time Series, separate or combined . . . . . . . 273
6.16.6 Plot Time Series, with correlations . . . . . . . . . . . 274
6.17 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
6.17.1 Bartlett Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
6.17.2 Levene Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
6.17.3 Variance Test, two samples . . . . . . . . . . . . . . . . . . 277
7 Distribution Menu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
7.1 Probabilities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
7.2 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
7.3 Plot Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
7.4 Sample From Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
7.5 Discrete Tail Probabilities . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
7.6 Continuous Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
7.7 Discrete Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
8 Model Fitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
8.1 Modeling Basics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
8.1.1 Types of Problems . . . . . . . . . . . . . . . . . . . . . . . . . 285
8.1.2 Types of Models . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
8.1.3 The Bias-Variance Trade-o . . . . . . . . . . . . . . . . . 287
8.1.4 Data Pre-processing . . . . . . . . . . . . . . . . . . . . . . . . 287
8.2 Contrasts Display . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
8.3 Contrasts Set . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
8.4 Cox Proportional Hazards Model . . . . . . . . . . . . . . . . . . . . . 294
8.4.1 Cox Model Advantages. . . . . . . . . . . . . . . . . . . . . . 295
8.4.2 Cox Model Disadvantages . . . . . . . . . . . . . . . . . . . 295
8.4.3 Cox Binary Time-Dependent Covariate . . . . . . . 295
8.4.4 Cox Multiple Model . . . . . . . . . . . . . . . . . . . . . . . . 297
8.4.5 Cox Single Model . . . . . . . . . . . . . . . . . . . . . . . . . . 299
8.4.6 Cox Strati ed Model . . . . . . . . . . . . . . . . . . . . . . . 302
8.4.7 Cox with Formula . . . . . . . . . . . . . . . . . . . . . . . . . . 304
8.5 Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
8.5.1 Tree Model Advantages . . . . . . . . . . . . . . . . . . . . . 307
8.5.2 Tree Model Disadvantages . . . . . . . . . . . . . . . . . . . 308
8.5.3 Tree Model Tuning Parameters . . . . . . . . . . . . . . 308
8.5.4 Tree Model Example . . . . . . . . . . . . . . . . . . . . . . . . 308
8.6 Extreme Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . 309
8.6.1 Gradient Boosting Machine Advantages . . . . . . . 312
8.6.2 Gradient Boosting Machine Disadvantages . . . . . 312
8.6.3 Gradient Boosting Machine Parameters . . . . . . . 313
8.6.4 Task Parameters { Objective . . . . . . . . . . . . . . . . 313
8.6.5 Task Parameters { Other . . . . . . . . . . . . . . . . . . . . 314
8.6.6 Extreme Gradient Boosting Machine Example . 314
8.7 GLZM – Generalized Linear Models . . . . . . . . . . . . . . . . . . . 315
8.7.1 GLZM Model Advantages . . . . . . . . . . . . . . . . . . . 316
8.7.2 GLZM Model Disadvantages . . . . . . . . . . . . . . . . . 317
8.7.3 GLZM Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
8.8 IRT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
8.8.1 Simple Rasch Model . . . . . . . . . . . . . . . . . . . . . . . . 321
8.8.2 Simple Rasch Model, multi-faceted . . . . . . . . . . . 322
8.8.3 Rating Scale Model . . . . . . . . . . . . . . . . . . . . . . . . . 323
8.8.4 Rating Scale, multi-faceted . . . . . . . . . . . . . . . . . . 326
8.8.5 Partial Credit Model . . . . . . . . . . . . . . . . . . . . . . . 326
8.8.6 Partial Credit Model, multi-faceted . . . . . . . . . . . 328
8.9 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
8.9.1 KNN Model Advantages . . . . . . . . . . . . . . . . . . . . 329
8.9.2 KNN Model Disadvantages . . . . . . . . . . . . . . . . . . 330
8.9.3 KNN Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
8.10 Linear Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
8.11 Linear Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
8.11.1 Linear Regression Advantages . . . . . . . . . . . . . . . . 332
8.11.2 Linear Regression Disadvantages . . . . . . . . . . . . . 333
8.11.3 Linear Regression, basic . . . . . . . . . . . . . . . . . . . . . 333
8.11.4 Linear Regression, multiple models . . . . . . . . . . . 337
8.11.5 Linear Regression, with formula . . . . . . . . . . . . . . 339
8.12 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
8.12.1 Logistic Regression Advantages . . . . . . . . . . . . . . 343
8.12.2 Logistic Regression Disadvantages . . . . . . . . . . . . 343
8.12.3 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . 343
8.12.4 Logistic Regression, conditional . . . . . . . . . . . . . . 346
8.12.5 Logistic Regression, multiple models . . . . . . . . . . 349
8.12.6 Logistic Regression, with formula . . . . . . . . . . . . . 352
8.12.7 Logistic Regression, with formula Example . . . . 352
8.13 Mixed Models, basic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
8.13.1 Mixed Models Example . . . . . . . . . . . . . . . . . . . . . 356
8.14 Multinomial Logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
8.14.1 Multinomial Logit Advantages . . . . . . . . . . . . . . . 360
8.14.2 Multinomial Logit Disadvantages . . . . . . . . . . . . . 361
8.14.3 Multinomial Logit Example . . . . . . . . . . . . . . . . . . 361
8.15 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
8.15.1 Naive Bayes Advantages . . . . . . . . . . . . . . . . . . . . 366
8.15.2 Naive Bayes Disadvantages . . . . . . . . . . . . . . . . . . 366
8.15.3 Naive Bayes Example . . . . . . . . . . . . . . . . . . . . . . . 366
8.16 Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
8.16.1 Neural Network Advantages . . . . . . . . . . . . . . . . . 368
8.16.2 Neural Network Disadvantages . . . . . . . . . . . . . . . 368
8.16.3 Neural Network Tuning Parameters . . . . . . . . . . . 368
8.16.4 Multi-layer Perceptron . . . . . . . . . . . . . . . . . . . . . . 369
8.16.5 Multi-Layer Perceptron Example . . . . . . . . . . . . . 369
8.16.6 NeuralNets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
8.16.7 Neuralnets Example . . . . . . . . . . . . . . . . . . . . . . . . 372
8.17 Ordinal Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
8.17.1 Ordered Logistic Regression Example . . . . . . . . . 374
8.18 Quantile Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
8.18.1 Quantile Regression Advantages . . . . . . . . . . . . . . 377
8.18.2 Quantile Regression Disadvantages . . . . . . . . . . . 377
8.18.3 Quantile Regression Example . . . . . . . . . . . . . . . . 377
8.19 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
8.19.1 Random Forest Advantages . . . . . . . . . . . . . . . . . . 379
8.19.2 Random Forest Disadvantages . . . . . . . . . . . . . . . 380
8.19.3 Random Forest Tuning Parameters . . . . . . . . . . . 380
8.19.4 Random Forest Example . . . . . . . . . . . . . . . . . . . . 380
8.19.5 Random Forest, tuneRF. . . . . . . . . . . . . . . . . . . . . 381
8.19.6 Optimal Number of Trees . . . . . . . . . . . . . . . . . . . 382
8.20 Summarizing Models for Each Group . . . . . . . . . . . . . . . . . 383
8.20.1 Summarizing Models Example . . . . . . . . . . . . . . . 384
9 Model Tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
9.1 Validation Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
9.1.1 Bootstrap Resampling . . . . . . . . . . . . . . . . . . . . . . 390
9.1.2 K-Fold Cross-Validation . . . . . . . . . . . . . . . . . . . . . 390
9.1.3 K-Fold Cross-Validation, repeated . . . . . . . . . . . . 391
9.1.4 Leave One Out Cross-Validation . . . . . . . . . . . . . 391
9.2 Preparing Data for Model Tuning . . . . . . . . . . . . . . . . . . . . 393
9.3 AdaBoost Classi cation Trees . . . . . . . . . . . . . . . . . . . . . . . . 395
9.4 Bayesian Ridge Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 396
9.5 Boosted Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400
9.5.1 Gradient Boosting Machines: gbm . . . . . . . . . . . . 400
9.5.2 Gradient Boosting Machines: xgbTree . . . . . . . . . 401
9.5.3 Boosted C5.0 Trees . . . . . . . . . . . . . . . . . . . . . . . . . 404
9.6 Decision Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408
9.6.1 C5.0 Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408
9.6.2 Conditional Inference Trees: ctree . . . . . . . . . . . . 410
9.6.3 Recursive Partitioning: rpart . . . . . . . . . . . . . . . . . 412
9.7 K Nearest Neighbors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
9.8 Linear Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
9.8.1 lm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
9.8.2 Stepwise linear models: lmStepAIC . . . . . . . . . . . 419
9.9 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
9.9.1 glm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
9.9.2 glmnet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
9.10 Multi-variate Adaptive Regression Spline . . . . . . . . . . . . . . 427
9.10.1 MARS Advantages . . . . . . . . . . . . . . . . . . . . . . . . . 428
9.10.2 MARS Disadvantages . . . . . . . . . . . . . . . . . . . . . . . 428
9.11 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
9.12 Neural Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
9.12.1 nnet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
9.12.2 neuralnet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
9.12.3 dnn: Deep Neural Networks . . . . . . . . . . . . . . . . . . 439
9.12.4 mlp: Multi-Layer Perceptrons . . . . . . . . . . . . . . . . 443
9.13 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444
9.13.1 rf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
9.13.2 cforest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448
9.13.3 ranger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449
9.14 Robust Linear Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 453
9.15 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454
9.15.1 SVM Advantages . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
9.15.2 SVM Disadvantages . . . . . . . . . . . . . . . . . . . . . . . . 455
9.15.3 svmLinear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
9.15.4 svmRadial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456
10 Model Using . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
10.1 Score Current Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
10.2 Model Type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
10.3 Load Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466
10.4 Pick a Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
10.5 Save Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
10.6 Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
10.7 Add Model Statistics to Observations . . . . . . . . . . . . . . . . . 468
10.8 AIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
10.9 ANOVA & Likelihood Ratio Test . . . . . . . . . . . . . . . . . . . . . 472
10.10 BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
10.11 Bonferroni Outlier Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
10.12 Compare Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
10.13 Con dence Interval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474
10.14 Hosmer-Lemeshow Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
10.15 IRT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476
10.15.1 ICC Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476
10.15.2 Item Fit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476
10.15.3 Model-Level Statistics . . . . . . . . . . . . . . . . . . . . . . 476
10.15.4 Parameter-Level Statistics . . . . . . . . . . . . . . . . . . . 477
10.15.5 Plot PI Map . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479
10.15.6 Item and Test Information . . . . . . . . . . . . . . . . . . 479
10.15.7 Likelihood Ratio and Beta Plots . . . . . . . . . . . . . 479
10.15.8 Person-Fit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480
10.16 Plot a Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
10.17 Pseudo R Squared . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
10.18 Stepwise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483
10.19 Summarize a Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484
10.20 Variance In
ation Factors . . . . . . . . . . . . . . . . . . . . . . . . . . . 485
11 Tools Menu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487
11.1 Dialog Inspector . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487
11.2 Dialog Installer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
11.3 Package . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489
11.3.1 R Version Details . . . . . . . . . . . . . . . . . . . . . . . . . . 490
11.3.2 R Package Details . . . . . . . . . . . . . . . . . . . . . . . . . . 490
11.3.3 Show Installed Packages . . . . . . . . . . . . . . . . . . . . . 491
xviii Contents
11.3.4 Update BlueSky Package from Zip (Restart App)492
11.3.5 Install Package(s) from Zipped File(s) . . . . . . . . . 492
11.3.6 Install/Update Package(s) from CRAN. . . . . . . . 492
11.3.7 Load Package(s) . . . . . . . . . . . . . . . . . . . . . . . . . . . 494
11.3.8 Load User Session Package(s) . . . . . . . . . . . . . . . . 495
11.3.9 Unload Package(s) . . . . . . . . . . . . . . . . . . . . . . . . . . 495
11.3.10 Uninstall Package(s) . . . . . . . . . . . . . . . . . . . . . . . . 496
11.4 Con guration Settings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496
11.4.1 Paths . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
11.4.2 Colors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
11.4.3 Image. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
11.4.4 Packages, Default . . . . . . . . . . . . . . . . . . . . . . . . . . 497
11.4.5 Packages, User . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498
11.4.6 Advanced . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498
11.4.7 Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
11.4.8 SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500
11.4.9 PDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500
11.4.10 Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500
12 Working with the R Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
12.1 The R Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
12.2 The R Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
12.3 R Code Typographic Conventions . . . . . . . . . . . . . . . . . . . . 502
12.4 Getting Started with R Code . . . . . . . . . . . . . . . . . . . . . . . . 502
12.5 Converting R Objects to Data Frames . . . . . . . . . . . . . . . . 505
12.6 Generating True Word Processing Tables . . . . . . . . . . . . . . 505
12.7 Loading and Refreshing the Datagrid . . . . . . . . . . . . . . . . . 506
12.8 Getting Help on R Packages and Functions . . . . . . . . . . . . 507
13 Glossary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .