|
|
1、表格筛选
1.1 select 筛选列
col1:col3
选取起止范围的列;
!c(col1, col2)
删除列;
everything()
取所有列;
last_col()
获取最后一行;
starts_with()
、ends_with()
、contains()
、matches
匹配具有特征列名的列;
all_of
、any_of
、where
匹配具有特征列值的列。
|
|
1.2 选择行
1.2.1 filter定义条件筛选行
|
|
1.2.2 slice系列方法选择行
slice()
按行索引取
slice_min()
, slice_max()
按列值大小取最值行
slice_sample()
随机抽取行
|
|
1.2.3 distinct去重复行
|
|
1.2.4 count统计频数
|
|
2、summarise表格统计
mean()
,median
sd()
,mad()
min()
,max()
,quantile()
n
、n_distinct
分别表示统计行数,与非重复行数
|
|
3、mutate修改/创建列
mutate()
会在原有表格基础上修改/新增列
transmute()
仅返回修改或者新增的列
3.1 修改列
|
|
3.2 新增列
|
|
4、arrange表格排序
|
|
5、关于表格的列名/行名
rename
: 修改列名
|
|
rownames_to_column
、column_to_rownames
行名与列的转换
|
|
6、两个表格合并
- 示例表格数据
|
|
根据不同的分析目的,有多种合并方法~
6.1 inner_join
- 取交集,即保留同时在两个表中的观测
|
|
注意:如果这两个列的名相同,合并时直接交代行名即可,例如
inner_join(df1_1, df3_1, by="y")
,merge(df1_1, df3_1, by = "y")
,下同~
6.2 left_join
- 左连接–保留左边表格的所有观测,缺失值用
NA
值代替
|
|
6.3 right_join
- 右连接–保留右边表格的所有观测,缺失值用
NA
值代替
|
|
6.4 full_join
- 外连接–保留两个表格里的所有观测,缺失值用
NA
值代替
|
|
补充tidyr
separate_rows
: 将一行的内容按特定分隔符拆分为多行
|
|