R

R/데이터 정제

25G 2021. 9. 23. 21:47

이번엔 데이터를 짤 때에 온전한 데이터를 만들기 위해 정제하는 것을 포스팅해 보겠습니다.

 

결측치

na데이터가 2개 있다 

하지만 큰 데이터는 눈으로 확인할 수 없으니 결측치 확인방법을 알아보자

그럼 어느 열에 어느변수에 결측치가 있는지 확인해보자

위와 같이 결측치가 있는 데이터는 연산할 수 없다고 나온다.

 

결측치 제거하기

 

그리고 결측치를 제거를할때 중요한 것은  결측치를 잘못 제거하면 그 데이터의 행이 다 날아갈 수 있기 때문에

주의해야 한다.

na.rm =T를 사용해서 결측치를 제외해서 연산을 진행했다.

 

 

결측치 대체하기

 

55가 있던 자리에 NA값을 넣어놨었는데 위 코드로 인해서 55인 평균값으로 대체됐다.

 

그리고 원래는 열마다 결측치를 확인하는 과정을 거쳐야 한다.

 

 

데이터를 정제를 할 때 결측치도 정제를 해야 하지만 이상치라는 것도 잘 다룰 수 있어야 한다.

 

이상치는 예를 들어 사람의 키를 모아놓은 데이터가 있다고 할 때 갑자기 3m 터의 사람이 있다는 데이터가 있다고 하면 이 3m는 이상치일 확률이 높은 것이다.

 

그래서 이 상치 데이터는 해당 속성의 데이터 범주 내에서 크게 벗어나는 것이다.

이상치를 결측치로 치환한 후엔 결측치를 제외하고 분석한다.

그렇기 때문에 이상치는 객관적이지 않고 주관적이다.

 

그래서 이상치는 문서화해서 객관적으로 만들어주거나 아니면

정확한 통계를 근거로 이상치를 판단해서 데이터 분석을 진행해야 한다.

쉽게 설명하자면 저 T자 위에 동그라미가 있는데 첫 번째 동그라미가 멕시멈 이상 치라는 것이다

 

그럼 위통계를 보면 12~ 37을 벗어나면 이상치이기 때문에 NA를 할당한다.

 

 

'R' 카테고리의 다른 글

R/ 문자열 함수  (0) 2021.09.30
R/ 그래프 만들기  (0) 2021.09.30
R/데이터 전처리(2)  (0) 2021.09.23
R/데이터 전처리(1)  (0) 2021.09.16
R/데이터 프레임  (0) 2021.09.16