|
|
1、表格筛选
1.1 select 筛选列
col1:col3 选取起止范围的列;
!c(col1, col2) 删除列;
everything() 取所有列;
last_col() 获取最后一行;
starts_with()、ends_with()、contains()、matches 匹配具有特征列名的列;
all_of、any_of、where 匹配具有特征列值的列。
|
|
1.2 选择行
1.2.1 filter定义条件筛选行
|
|
1.2.2 slice系列方法选择行
slice() 按行索引取
slice_min(), slice_max() 按列值大小取最值行
slice_sample() 随机抽取行
|
|
1.2.3 distinct去重复行
|
|
1.2.4 count统计频数
|
|
2、summarise表格统计
mean(),median
sd(),mad()
min(),max(),quantile()
n、n_distinct 分别表示统计行数,与非重复行数
|
|
3、mutate修改/创建列
mutate()会在原有表格基础上修改/新增列
transmute()仅返回修改或者新增的列
3.1 修改列
|
|
3.2 新增列
|
|
4、arrange表格排序
|
|
5、关于表格的列名/行名
rename: 修改列名
|
|
rownames_to_column、column_to_rownames行名与列的转换
|
|
6、两个表格合并
- 示例表格数据
|
|
根据不同的分析目的,有多种合并方法~
6.1 inner_join
- 取交集,即保留同时在两个表中的观测
|
|
注意:如果这两个列的名相同,合并时直接交代行名即可,例如
inner_join(df1_1, df3_1, by="y"),merge(df1_1, df3_1, by = "y"),下同~
6.2 left_join
- 左连接–保留左边表格的所有观测,缺失值用
NA值代替
|
|
6.3 right_join
- 右连接–保留右边表格的所有观测,缺失值用
NA值代替
|
|
6.4 full_join
- 外连接–保留两个表格里的所有观测,缺失值用
NA值代替
|
|
补充tidyr
separate_rows: 将一行的内容按特定分隔符拆分为多行
|
|