数据可视化与线性回归分析
立即解锁
发布时间: 2025-09-02 02:14:39 阅读量: 11 订阅数: 44 AIGC 


数据可视化与二语研究
### 数据可视化与线性回归分析
#### 1. 数据可视化的美学优化
在数据可视化中,我们常常希望在图表上展示更多的信息,比如在条形图或箱线图上显示 p 值和比较结果。在 R 中,我们可以通过安装 `ggpubr` 包来实现这一功能,然后在图表代码中添加 `stat_compare_means()` 这一行代码。相关包的详细信息可查看:https://cran.r-project.org/web/packages/ggpubr/index.html 。
不过,在图表中添加 p 值和比较结果时,需要注意以下两点:
- 这可能会使结果过于关注 p 值,而忽略了效应量。
- 比较越多,图表会显得越杂乱。
因此,为了更清晰地展示数据和统计结果,我们可以将探索性图表和统计结果图表分开。
`ggplot2` 提供了很大的灵活性,我们可以通过控制图表的美学参数来创建几乎任何我们想要的静态图表。如果想超越 `ggplot2` 的典型美学特征,可以探索 `ggthemes` 和 `ggtext` 等包。一旦创建了理想图表的代码,只需简单调整代码就可以多次重现该图表。
以下是一些关于颜色和字体的练习:
1. **颜色调色板**:
- 安装并加载 `RColorBrewer` 包。
- 在控制台运行 `display.brewer.all()`,在绘图窗口会出现预设调色板集合,可尝试不同调色板为图表添加颜色。
2. **字体选择**:
- 在控制台运行 `fonts()` 查看可用字体。
- 尝试用不同字体家族和大小重新创建图表,熟悉 `theme()` 层,可在控制台运行 `?theme` 或 `help(theme)` 了解更多。
3. **缩写 x 轴标签**:在图表中添加 `scale_x_discrete(label = abbreviate)` 层,可缩写 x 轴标签,也可手动指定标签。
此外,还有一些注意事项:
- `vjust` 可调整条形图标签的垂直对齐方式(选项:0, 0.5, 1),0.5 可使标签居中。
- `ggplot2` 有默认颜色,但通常需要更改,使用 `scale_fill_brewer()` 有很多调色板可用,如 `RdOr` 调色板从红色到橙色,适合绘制标量数据,除了 `Greys`,流行的调色板还有 `Blues` 和 `Greens`。
- 技术上,保存图表时更改宽度和高度也可改变字体大小,如设置宽度为 5,高度为 2,字体大小会变大。
#### 2. 线性回归分析
在完成数据可视化后,下一步是进行数据的统计分析,这里我们将重点介绍线性回归。线性回归适用于连续响应变量的分析。
在开始分析前,需要进行文件组织:
- 创建文件夹结构:`bookFiles > models > Frequentist`。
- 在 `Frequentist` 文件夹内创建 R 项目 `Frequentist.RProj`。
- 添加三个新脚本:`dataPrepLinearModels.R`、`plotsLinearModels.R` 和 `linearModels.R`。
- 将 `feedbackData.csv` 文件复制到 `Frequentist` 文件夹。
- 在 `dataPrepLinearModels.R` 中复制之前的数据转换代码。
- 在 `plotsLinearModels.R` 和 `linearModels.R` 的第一行添加 `source("dataPrepLinearModels.R")`。
##### 2.1 线性回归简介
线性回归的目标是用解释变量(x 轴)来预测响应变量(y 轴),即拟合一条“最能捕捉数据模式”的直线。然而,由于数据点分布分散,很难找到一条完美的直线。最佳直线是使它与所有数据点之间的总体距离最小的直线,这个距离被称为 residuals(残差)。
残差是直线预测值与实际观测数据之间的差异
0
0
复制全文
相关推荐










