网站首页 > 技术文章 正文
今天在最基础的内容上坑了大半天,怎么也想不明白为啥跟官方答案对不上
晚上10点三刻开始码字,离上床睡觉的时限还有一刻钟,呜呜呜~~
#读取数据
Test <- read.csv("cs-test.csv")
共12列,其中前11列都是数值,第12列是目标变量,目前还没做分类,所以最后一列不要
然后,按要求先做个summary,由于summary函数的默认输出样式不太方便做后续处理,我决定拆分成单列再用apply整合
T1 <- Test[,-12]
#数值型变量Summary整理格式
Summarize <- function(x) {
S1 <- as.matrix(summary(x));
if (length(S1) ==6){
S1 <- rbind(S1,0) };
return(S1) }
#代入数据
So <- apply(T1,2,Summarize)
Titles <- c("Min.","1st Qu.","Median","Mean","3rd Qu.","Max.","NA counts")
SumOrigin <- data.frame(So, row.names = Titles)
输出的SumOrigin如下,看起来还可以:
#缺失行分隔: Rna <- apply(Test[,-12],1,anyNA) Known <- Test[!Rna,-12]
缺失数据的行有将近20%,又得哭一会~~~~
#离群值修正
#+/-1.5倍四分位距
L1 <-So[2,]-(So[5,]-So[2,])*1.5
H1 <-So[5,]+(So[5,]-So[2,])*1.5
#+/-3倍标准差
SD1 <- apply(T1,2,sd, na.rm = TRUE)
L2 <-So[4,]-SD1*3
H2 <-So[4,]+SD1*3
library("timeDate")
#峰度
Kt <- apply(T1,2,kurtosis, na.rm = TRUE)
#偏度
SK <- apply(T1,2,skewness, na.rm = TRUE)
#集中以上数据
Range <- data.frame(L1,H1,L2,H2,Kt,SK)
上边的L1、H1和L2、H2是用两种方式计算出的每列数据范围上下限
Kt为峰度,>0时为尖峰,<0时为扁平峰
SK为偏度,>0时右偏,<0是左偏
超时5分钟,挑战失败~~~~~
猜你喜欢
- 2024-10-07 R语言实践问题与解决方法记录(一)
- 2024-10-07 R数据分析:使用R语言进行卡方检验
- 2024-10-07 R数据分析:如何用R做多重插补,实例操练
- 2024-10-07 R语言——关联规则(r语言关联规则分析)
- 2024-10-07 R语言数据质量分析(r语言数据分析步骤)
- 2024-10-07 R语言风险价值VaR(Value at Risk)和损失期望
- 2024-10-07 干货 | 超实用的【R语言与高级医学统计学】课程,科研人必备
- 2024-10-07 R语言中因子的创建与使用(r语言中因子指什么)
- 2024-10-07 协同过滤的R语言实现及改进(协同过滤算法改进)
- 2024-10-07 R语言3种数据分析方法,搬好板凳,记笔记了!
- 最近发表
- 标签列表
-
- cmd/c (90)
- c++中::是什么意思 (84)
- 标签用于 (71)
- 主键只能有一个吗 (77)
- c#console.writeline不显示 (95)
- pythoncase语句 (88)
- es6includes (74)
- sqlset (76)
- apt-getinstall-y (100)
- node_modules怎么生成 (87)
- chromepost (71)
- flexdirection (73)
- c++int转char (80)
- mysqlany_value (79)
- static函数和普通函数 (84)
- el-date-picker开始日期早于结束日期 (76)
- js判断是否是json字符串 (75)
- c语言min函数头文件 (77)
- asynccallback (87)
- localstorage.removeitem (77)
- vector线程安全吗 (73)
- java (73)
- js数组插入 (83)
- mac安装java (72)
- 无效的列索引 (74)
