数据分析：从R到Python的实践之旅

# 数据分析：从 R 到 Python 的实践之旅 ## 一、R 语言中的数据分析 ### 1. 假设检验在数据分析中，假设检验是一种重要的工具。以汽车数据为例，为了探究美国和欧洲汽车的里程数是否存在显著差异，我们创建一个新的数据框，仅包含美国和欧洲汽车的观测数据，然后进行 t 检验。 ```R # 过滤出美国和欧洲汽车的数据 mpg_filtered <- filter(mpg, origin=='USA' | origin=='Europe') # 进行 t 检验 t.test(mpg ~ origin, data = mpg_filtered) ``` 运行上述代码后，输出结果如下： ``` Welch Two Sample t-test data: mpg by origin t = 8.4311, df = 105.32, p-value = 1.93e-13 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 5.789361 9.349583 sample estimates: mean in group Europe mean in group USA 27.60294 20.03347 ``` 根据 p 值，我们可以拒绝原假设，这表明美国和欧洲汽车的平均里程数存在显著差异。如果想要探究美国、欧洲和亚洲汽车的里程数差异，则需要使用方差分析（ANOVA）。 ### 2. 连续变量关系分析 #### 2.1 相关矩阵使用 base R 中的 `cor()` 函数可以计算连续变量之间的相关矩阵。 ```R # 选择连续变量并计算相关矩阵 select(mpg, mpg:horsepower) %>% cor() ``` 输出结果为： ``` mpg weight horsepower mpg 1.0000000 -0.8322442 -0.7784268 weight -0.8322442 1.0000000 0.8645377 horsepower -0.7784268 0.8645377 1.0000000 ``` 从相关矩阵中，我们可以看出各变量之间的相关性。例如，`mpg` 与 `weight` 呈负相关，与 `horsepower` 也呈负相关。 #### 2.2 可视化使用 `ggplot2` 包可以可视化变量之间的关系，如汽车重量和里程数的关系。 ```R # 绘制散点图 ggplot(data = mpg, aes(x = weight, y = mpg)) + geom_point() + xlab('weight (pounds)') + ylab('mileage (mpg)') + ggtitle('Relationship between weight and mileage') ``` 此外，还可以使用 base R 中的 `pairs()` 函数生成变量组合的配对图。 ```R # 生成配对图 select(mpg, mpg:horsepower) %>% pairs() ``` ### 3. 线性回归使用 base R 中的 `lm()` 函数进行线性回归分析，以探究汽车重量对里程数的影响。 ```R # 进行线性回归 mpg_regression <- lm(mpg ~ weight, data = mpg) # 查看回归模型的摘要信息 summary(mpg_regression) ``` 输出结果包含了系数、p 值、R 平方等重要信息，通过这些信息可以判断重量对里程数的影响是否显著。最后，我们可以在散点图上拟合回归直线。 ```R # 绘制带有回归直线的散点图 ggplot(data = mpg, aes(x = weight, y = mpg)) + geom_point() + xlab('weight (pounds)') + ylab('mileage (mpg)') + ggtitle('Relationship between weight and mileage') + geom_smooth(method = lm) ``` 回归直线周围的阴影区域表示回归斜率的置信区间，它以 95% 的置信度显示了每个 x 值对应的真实总体估计可能所在的范围。 ### 4. 训练/测试集分割与验证在机器学习中，训练/测试集分割是一种常用的技术，用于确保模型能够泛化到更广泛的数据集。在 R 中，我们可以使用 `tidymodels` 包来实现这一功能。 ```R # 设置随机数种子，确保结果可重复 set.seed(1234) # 进行数据分割 mpg_split <- initial_split(mpg) mpg_train <- training(mpg_split) mpg_test <- testing(mpg_split) ``` 默认情况下，`tidymodels` 会将数据随机分成训练集（75%）和测试集（25%）。我们可以使用 `dim()` 函数验证分割后的数据集大小。 ```R # 查看训练集和测试集的维度 dim(mpg_train) dim(mpg_test) ``` 接下来，我们构建训练模型，并对其进行评估。 ```R # 指定模型类型 lm_spec <- linear_reg() # 拟合模型 lm_fit <- lm_spec %>% fit(mpg ~ weight, data = mpg_train) # 获取模型系数和 p 值 tidy(lm_fit) # 获取模型性能指标 glance(lm_fit) # 对测试集进行预测 mpg_results <- predict(lm_fit, new_data = mpg_test) %>% bind_cols(mpg_test) # 计算 R 平方 rsq(data = mpg_results, truth = mpg, estimate = .pred) # 计算均方根误差（RMSE） rmse(data = mpg_results, truth = mpg, estimate = .pred) ``` 通过计算 R 平方和均方根误差（RMSE），我们可以评估模型在测试集上的性能。 ## 二、Python 语言入门 ### 1. Python 简介 Python 是一种免费的开源编程语言，由 Guido van Rossum 于 1991 年创建。与专门为数据

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

数据分析：从R到Python的实践之旅

相关推荐

专栏目录

数据分析：从R到Python的实践之旅

相关推荐

全面掌握数据分析关于PYTHON

《泰迪杯：开启数据挖掘之旅的钥匙》

数据分析三剑客之 Matplotlib 基础教程

《推进分析的资源》：从Excel到R和Python的数据分析之旅

Jupyter数据分析：深入探究纽约出租车之旅

从工作脚本到数据分析：我在R中的成长之旅

开启Python学习之旅：从基础到实践

社交媒体数据分析：时间序列方法的探索之旅

NYC出租车数据：数据科学实践与分析之旅

毕马威虚拟实习：体验数据分析实践之旅

网页截图 - 如何截取全网页内容 - 学习/实践

【微擎小程序】麦芒装修DIY小程序 sister_renovation 3.2.4 安装更新一体包.zip

专栏目录

最新推荐

容器部署与管理实战指南

信息系统集成与测试实战

开源安全工具：Vuls与CrowdSec的深入剖析

基于属性测试的深入解析与策略探讨

RHEL9系统存储、交换空间管理与进程监控指南

构建交互式番茄钟应用的界面与功能

Ansible高级技术与最佳实践

实时资源管理：Elixir中的CPU与内存优化

轻量级HTTP服务器与容器化部署实践

PowerShell7在Linux、macOS和树莓派上的应用指南