《R语言实战第2版》 -pdf、txt、mobi、kindle、epub电子版下载

发布时间: 2025-05-31    访问量: 92

关于本书

如果你翻开了本书,那么很有可能是因为要做一些数据收集、总结、转换、探索、建模、可视化或呈现方面的工作。如果确实如此,那么R完全能够满足你的需求!R已经成了统计、预测分析和数据可视化的全球通用语言。它提供各种用于分析和理解数据的方法,从最基础的到最前沿的,无所不包。

R是一个开源项目,在很多操作系统上都可以免费得到,包括Windows、Mac OS X和Linux。R还在持续发展中,每天都在纳入新的功能。此外,R还得到了社区的广泛支持,这个社区里既有数据科学家也有程序员,他们很乐于为R的用户提供帮助或建议。

R以能创建漂亮优雅的图形而闻名,但实际上它可以处理各种统计问题。基本的安装就提供了数以百计的数据管理、统计和图形函数。不过,R很多强大的功能都来自社区开发的数以千计的扩展(包)。

这些好处也都是有代价的。对于新手来说,经常遇到的两个基本难题就是:R到底是什么?R究竟能做什么?甚至是经验丰富的R用户也常常发现一些他们之前闻所未闻的新功能。

本书是一本R指南,高度概括了该软件和它的强大功能。本书会介绍基本安装中最重要的函数,以及90多个重要扩展包中的函数。整本书都是围绕实际应用展开的,你将学会理解数据并能够与他人交流这种对数据的理解。通读本书,你应该会对R的原理和功能有基本的了解,并知道从什么地方学习更多的相关知识。你将能用各种技术实现数据的可视化,还能解决各种难度的数据分析问题。

读者对象

每一个要处理数据的人都应该读读本书,他们不需要任何统计编程或R语言知识背景。R语言新手完全能够读懂本书,而有经验的R老手也能在本书中发现很多实用的新东西。

没有统计背景,但需要用R操作数据、总结数据、绘制图形的读者会觉得第1~6章、第11章和第19章比较容易理解。第7章和第10章则需要读者学过一学期的统计学课程;第8章、第9章和第12~18章则需要读者学过一学年的统计学课程。第20~22章更详尽地介绍了R语言,但并不对读者的统计学背景有任何要求。不过,我尽可能地让每一章都能同时迎合数据分析新手和专家的需求,让所有人都能从中获益。

对数据挖掘者的建议

数据挖掘是一个在大数据集中发现模式、规律的领域。由于R可以提供最前沿的数据分析方法,许多数据挖掘专家都选择了R。如果你是一个正在转用R的数据挖掘专家,想尽快了解这门语言,那么我推荐你按照这样的顺序阅读:第1章(介绍)、第2章(数据结构和与你有关的数据导入部分)、第4章(基本的数据管理)、第7章(描述性统计)、第8章(8.1节、8.2节、8.6节以及回归)、第13章(13.2节以及逻辑回归)、第16章(聚类)、第17章(分类)以及附录F(处理大数据)。之后再根据你的实际需求阅读其他章节。

版权声明

对第1版的赞誉

致谢

前言

关于本书

第2版的不同之处

读者对象

本书结构

对数据挖掘者的建议

例子

排版约定

作者在线

关于封面图片

第一部分 入门

第 1 章 R语言介绍

1.1 为何要使用R

1.2 R的获取和安装

1.3 R的使用

1.3.1 新手上路

1.3.2 获取帮助

1.3.3 工作空间

1.3.4 输入和输出

1.4 包

1.4.1 什么是包

1.4.2 包的安装

1.4.3 包的载入

1.4.4 包的使用方法

1.5 批处理

1.6 将输出用为输入:结果的重用

1.7 处理大数据集

1.8 示例实践

1.9 小结

第 2 章 创建数据集

2.1 数据集的概念

2.2 数据结构

2.2.1 向量

2.2.2 矩阵

2.2.3 数组

2.2.4 数据框

2.2.5 因子

2.2.6 列表

2.3 数据的输入

2.3.1 使用键盘输入数据

2.3.2 从带分隔符的文本文件导入数据

2.3.3 导入Excel数据

2.3.4 导入XML数据

2.3.5 从网页抓取数据

2.3.6 导入SPSS数据

2.3.7 导入SAS数据

2.3.8 导入Stata数据

2.3.9 导入NetCDF数据

2.3.10 导入HDF5数据

2.3.11 访问数据库管理系统

2.3.12 通过Stat/Transfer导入数据

2.4 数据集的标注

2.4.1 变量标签

2.4.2 值标签

2.5 处理数据对象的实用函数

2.6 小结

第 3 章 图形初阶

3.1 使用图形

3.2 一个简单的例子

3.3 图形参数

3.3.1 符号和线条

3.3.2 颜色

3.3.3 文本属性

3.3.4 图形尺寸与边界尺寸

3.4 添加文本、自定义坐标轴和图例

3.4.1 标题

3.4.2 坐标轴

3.4.3 参考线

3.4.4 图例

3.4.5 文本标注

3.4.6 数学标注

3.5 图形的组合

图形布局的精细控制

3.6 小结

第 4 章 基本数据管理

4.1 一个示例

4.2 创建新变量

4.3 变量的重编码

4.4 变量的重命名

4.5 缺失值

4.5.1 重编码某些值为缺失值

4.5.2 在分析中排除缺失值

4.6 日期值

4.6.1 将日期转换为字符型变量

4.6.2 更进一步

4.7 类型转换

4.8 数据排序

4.9 数据集的合并

4.9.1 向数据框添加列

4.9.2 向数据框添加行

4.10 数据集取子集

4.10.1 选入(保留)变量

4.10.2 剔除(丢弃)变量

4.10.3 选入观测

4.10.4 subset()函数

4.10.5 随机抽样

4.11 使用SQL语句操作数据框

4.12 小结

第 5 章 高级数据管理

5.1 一个数据处理难题

5.2 数值和字符处理函数

5.2.1 数学函数

5.2.2 统计函数

5.2.3 概率函数

5.2.4 字符处理函数

5.2.5 其他实用函数

5.2.6 将函数应用于矩阵和数据框

5.3 数据处理难题的一套解决方案

5.4 控制流

5.4.1 重复和循环

5.4.2 条件执行

5.5 用户自编函数

5.6 整合与重构

5.6.1 转置

5.6.2 整合数据

5.6.3 reshape2包

5.7 小结

第二部分 基本方法

第 6 章 基本图形

6.1 条形图

6.1.1 简单的条形图

6.1.2 堆砌条形图和分组条形图

6.1.3 均值条形图

6.1.4 条形图的微调

6.1.5 棘状图

6.2 饼图

6.3 直方图

6.4 核密度图

6.5 箱线图

6.5.1 使用并列箱线图进行跨组比较

6.5.2 小提琴图

6.6 点图

6.7 小结

第 7 章 基本统计分析

7.1 描述性统计分析

7.1.1 方法云集

7.1.2 更多方法

7.1.3 分组计算描述性统计量

7.1.4 分组计算的扩展

7.1.5 结果的可视化

7.2 频数表和列联表

7.2.1 生成频数表

7.2.2 独立性检验

7.2.3 相关性的度量

7.2.4 结果的可视化

7.3 相关

7.3.1 相关的类型

7.3.2 相关性的显著性检验

7.3.3 相关关系的可视化

7.4 t检验

7.4.1 独立样本的t检验

7.4.2 非独立样本的t检验

7.4.3 多于两组的情况

7.5 组间差异的非参数检验

7.5.1 两组的比较

7.5.2 多于两组的比较

7.6 组间差异的可视化

7.7 小结

第三部分 中级方法

第 8 章 回归

8.1 回归的多面性

8.1.1 OLS回归的适用情境

8.1.2 基础回顾

8.2 OLS回归

8.2.1 用lm()拟合回归模型

8.2.2 简单线性回归

8.2.3 多项式回归

8.2.4 多元线性回归

8.2.5 有交互项的多元线性回归

8.3 回归诊断

8.3.1 标准方法

8.3.2 改进的方法

8.3.3 线性模型假设的综合验证

8.3.4 多重共线性

8.4 异常观测值

8.4.1 离群点

8.4.2 高杠杆值点

8.4.3 强影响点

8.5 改进措施

8.5.1 删除观测点

8.5.2 变量变换

8.5.3 增删变量

8.5.4 尝试其他方法

8.6 选择“最佳”的回归模型

8.6.1 模型比较

8.6.2 变量选择

8.7 深层次分析

8.7.1 交叉验证

8.7.2 相对重要性

8.8 小结

第 9 章 方差分析

9.1 术语速成

9.2 ANOVA模型拟合

9.2.1 aov()函数

9.2.2 表达式中各项的顺序

9.3 单因素方差分析

9.3.1 多重比较

9.3.2 评估检验的假设条件

9.4 单因素协方差分析

9.4.1 评估检验的假设条件

9.4.2 结果可视化

9.5 双因素方差分析

9.6 重复测量方差分析

9.7 多元方差分析

9.7.1 评估假设检验

9.7.2 稳健多元方差分析

9.8 用回归来做ANOVA

9.9 小结

第 10 章 功效分析

10.1 假设检验速览

10.2 用pwr包做功效分析

10.2.1 t 检验

10.2.2 方差分析

10.2.3 相关性

10.2.4 线性模型

10.2.5 比例检验

10.2.6 卡方检验

10.2.7 在新情况中选择合适的效应值

10.3 绘制功效分析图形

10.4 其他软件包

10.5 小结

第 11 章 中级绘图

11.1 散点图

11.1.1 散点图矩阵

11.1.2 高密度散点图

11.1.3 三维散点图

11.1.4 旋转三维散点图

11.1.5 气泡图

11.2 折线图

11.3 相关图

11.4 马赛克图

11.5 小结

第 12 章 重抽样与自助法

12.1 置换检验

12.2 用coin包做置换检验

12.2.1 独立两样本和K样本检验

12.2.2 列联表中的独立性

12.2.3 数值变量间的独立性

12.2.4 两样本和K样本相关性检验

12.2.5 深入探究

12.3 lmPerm包的置换检验

12.3.1 简单回归和多项式回归

12.3.2 多元回归

12.3.3 单因素方差分析和协方差分析

12.3.4 双因素方差分析

12.4 置换检验点评

12.5 自助法

12.6 boot包中的自助法

12.6.1 对单个统计量使用自助法

12.6.2 多个统计量的自助法

12.7 小结

第四部分 高级方法

第 13 章 广义线性模型

13.1 广义线性模型和glm()函数

13.1.1 glm()函数

13.1.2 连用的函数

13.1.3 模型拟合和回归诊断

13.2 Logistic回归

13.2.1 解释模型参数

13.2.2 评价预测变量对结果概率的影响

13.2.3 过度离势

13.2.4 扩展

13.3 泊松回归

13.3.1 解释模型参数

13.3.2 过度离势

13.3.3 扩展

13.4 小结

第 14 章 主成分分析和因子分析

14.1 R中的主成分和因子分析

14.2 主成分分析

14.2.1 判断主成分的个数

14.2.2 提取主成分

14.2.3 主成分旋转

14.2.4 获取主成分得分

14.3 探索性因子分析

14.3.1 判断需提取的公共因子数

14.3.2 提取公共因子

14.3.3 因子旋转

14.3.4 因子得分

14.3.5 其他与EFA相关的包

14.4 其他潜变量模型

14.5 小结

第 15 章 时间序列

15.1 在R中生成时序对象

15.2 时序的平滑化和季节性分解

15.2.1 通过简单移动平均进行平滑处理

15.2.2 季节性分解

15.3 指数预测模型

15.3.1 单指数平滑

15.3.2 Holt指数平滑和Holt-Winters指数平滑

15.3.3 ets()函数和自动预测

15.4 ARIMA预测模型

15.4.1 概念介绍

15.4.2 ARMA和ARIMA模型

15.4.3 ARIMA的自动预测

15.5 延伸阅读

15.6 小结

第 16 章 聚类分析

16.1 聚类分析的一般步骤

16.2 计算距离

16.3 层次聚类分析

16.4 划分聚类分析

16.4.1 K均值聚类

16.4.2 围绕中心点的划分

16.5 避免不存在的类

16.6 小结

第 17 章 分类

17.1 数据准备

17.2 逻辑回归

17.3 决策树

17.3.1 经典决策树

17.3.2 条件推断树

17.4 随机森林

17.5 支持向量机

选择调和参数

17.6 选择预测效果最好的解

17.7 用rattle包进行数据挖掘

17.8 小结

第 18 章 处理缺失数据的高级方法

18.1 处理缺失值的步骤

18.2 识别缺失值

18.3 探索缺失值模式

18.3.1 列表显示缺失值

18.3.2 图形探究缺失数据

18.3.3 用相关性探索缺失值

18.4 理解缺失数据的来由和影响

18.5 理性处理不完整数据

18.6 完整实例分析(行删除)

18.7 多重插补

18.8 处理缺失值的其他方法

18.8.1 成对删除

18.8.2 简单(非随机)插补

18.9 小结

第五部分 技能拓展

第 19 章 使用ggplot2进行高级绘图

19.1 R中的四种图形系统

19.2 ggplot2包介绍

19.3 用几何函数指定图的类型

19.4 分组

19.5 刻面

19.6 添加光滑曲线

19.7 修改ggplot2图形的外观

19.7.1 坐标轴

19.7.2 图例

19.7.3 标尺

19.7.4 主题

19.7.5 多重图

19.8 保存图形

19.9 小结

第 20 章 高级编程

20.1 R语言回顾

20.1.1 数据类型

20.1.2 控制结构

20.1.3 创建函数

20.2 环境

20.3 面向对象的编程

20.3.1 泛型函数

20.3.2 S3模型的限制

20.4 编写有效的代码

20.5 调试

20.5.1 常见的错误来源

20.5.2 调试工具

20.5.3 支持调试的会话选项

20.6 深入学习

20.7 小结

第 21 章 创建包

21.1 非参分析和npar包

用npar包比较分组

21.2 开发包

21.2.1 计算统计量

21.2.2 打印结果

21.2.3 汇总结果

21.2.4 绘制结果

21.2.5 添加样本数据到包

21.3 创建包的文档

21.4 建立包

21.5 深入学习

21.6 小结

第 22 章 创建动态报告

22.1 用模版生成报告

22.2 用R和Markdown创建动态报告

22.3 用R和LaTeX创建动态报告

22.4 用R和Open Document创建动态报告

22.5 用R和Microsoft Word创建动态报告

22.6 小结

第 23 章 使用lattice进行高级绘图

23.1 lattice包

23.2 调节变量

23.3 面板函数

23.4 分组变量

23.5 图形参数

23.6 自定义图形条带

23.7 页面布局

23.8 深入学习

附录 A 图形用户界面

附录 B 自定义启动环境

附录 C 从R中导出数据

C.1 符号分隔文本文件

C.2 Excel电子表格

C.3 统计学程序

附录 D R中的矩阵运算

附录 E 本书中用到的扩展包

附录 F 处理大数据集

F.1 高效程序设计

F.2 在内存之外存储数据

F.3 用于大数据的分析包

F.4 超大数据集的全面解决方案

附录 G 更新R

G.1 自动安装(仅适用于Windows)

G.2 手动安装(Windows和Mac OS X)

G.3 更新R(Linux)

后记:探索R的世界

参考文献

本站所有数据均来源于网络,如有侵权请联系站长处理。
联系我们:zgl9888@163.com  湘ICP备2021007205号
友情链接  诸葛前沿
Copyright©2023  每日阅读