R 13

R/ 문자열 함수

문자열 데이터를 어떻게 가공하고 분석하는지에 대한 단원이다. "a"가 들어가있는 문자열을 찾아서 t/f값으로 반환해준다. 어떤 문자열을 분석하기위해선 원소별 패턴을 검사하는 방법부터 알아야 한다. 위문 법을 다음과 같이 응용할 수 도 있다. 이제 끝나는 문자 패턴을 분석할 때는 $를 사용한다 글자 수 분석 R의 특징이 R의 최소 단위가 백터이기 때문에 31번째 줄처럼 데이터를 넣어도 알아서 타입을 추론해서 분석해준다. 문자열 치환 위와 같이 파싱 하듯이 문자를 치환하는 방법도 있다. 공백으로 치환했기 때문에 ", "를 지워버린 격이 된 것이다. 위와 같이 데이터가 추출돼서 출력되는 것이지 animal이라는 데이터는 형태 그대로를 유지하고 있다. 공백 제거

R 2021.09.30

R/데이터 정제

이번엔 데이터를 짤 때에 온전한 데이터를 만들기 위해 정제하는 것을 포스팅해 보겠습니다. 결측치 na데이터가 2개 있다 하지만 큰 데이터는 눈으로 확인할 수 없으니 결측치 확인방법을 알아보자 그럼 어느 열에 어느변수에 결측치가 있는지 확인해보자 위와 같이 결측치가 있는 데이터는 연산할 수 없다고 나온다. 결측치 제거하기 그리고 결측치를 제거를할때 중요한 것은 결측치를 잘못 제거하면 그 데이터의 행이 다 날아갈 수 있기 때문에 주의해야 한다. na.rm =T를 사용해서 결측치를 제외해서 연산을 진행했다. 결측치 대체하기 55가 있던 자리에 NA값을 넣어놨었는데 위 코드로 인해서 55인 평균값으로 대체됐다. 그리고 원래는 열마다 결측치를 확인하는 과정을 거쳐야 한다. 데이터를 정제를 할 때 결측치도 정제를 ..

R 2021.09.23

R/데이터 전처리(2)

저번 포스팅과 이어져있습니다. 파생변수 추가 mutate함수를 사용하는 이유는 여러 파생변수를 한 번에 추가할 수 있기 때문이다. summarise함수 단순히 평균을 구하는 mean함수와 결과물이 다른 것을 확인할 수 있다. 그렇기 때문에 다양한 값으로 다시 산출할 수 있다. mean() : 평균 sd() : 표준편차 sum() : 합계 median() : 중앙값 min() : 최솟값 max() : 최댓값 n() : 빈도 데이터 합치기 left_join() 함수 bind_row() 함수 간단하게 위 두 개의 데이터 프레임을 합쳐볼 것이다. 왼쪽에 기준 데이터를 두고 오른쪽에 새로운 데이터를 합친다라고 생각하면 좀 편하게 이해할 수 있다. 세로로 합치기 위 두 개의 데이터 프레임을 합치게 할 수 있다.

R 2021.09.23

R/데이터 전처리(1)

데이터 전처리에 사용될 함수 전처리 하기 위해서 dplyr패키지를 사용할 것이다. dplyr에서 제공되는 함수이다 로드 후 예제 데이터를 불러왔다. fliter함수 filter는 내가 원하는 어떠한 조건에 특정한 데이터만 추출해 내는 함수이다. %>%:는 파이프 연산자라고 하는데 함수들을 연결해 준다. 매치 연산자 목록에 해당하는 것만 추출하고 싶을 때 % in%: 매치 연산자 변수의 값이 지정한 조건 목록에 해당하는지 확인하는 기능 필요한 변수만 추출하기(열 추출) 여러 변수 추출 위 filter나 select를 사용하는 이유는 데이터가 엄청나게 많으면 컴퓨터가 연산하는데 오래 걸리기 때문에 필요한 데이터만 추출해서 분석하기 위함이다 변수 제외하기 select는 필요한 부분만 빼고 추출할 수도 있다. ..

R 2021.09.16

R/데이터 프레임

데이터 프레임은 쉽게 말하면 엑셀과 똑같은 자료구조라고 보면 된다. 이렇게 엑샐로 여러 개의 백터가 큰 하나의 관계를 가지지만 서로는 관계가 있지 않는 데이터 형태 변수를 미리 안만들고도 할 수 있다. 데이터 프레임 분석 그럼 데이터를 파악하는게 1번이라는 것을 알았으니 이제 데이터를 분석하는 함수를 알아보자 실무에서 데이터를 받아보면 head, str, dim이 세 가지를 가장 많이 사용한다고 한다. 그럼 데이터를 파악해보자 예제 엑셀파일이 있는데 그 예제 데이터를 가지고 오기 위해서는 아래와 같은 문법이 있다. exam변수에 데이터를 넣었다. 데이터프레임으로 출력을 해보자 잘 들어왔는지 확인 데이터 수정하기 먼져 dplyr 패키지를 사용하기 위해 설치부터 한다. 항상 패키지를 다운로드하면 로드를 시켜..

R 2021.09.16

R언어 기본 문법

주피터 노트북으로 가서 자신이 설정해놓은 경로로 가서 NEW 눌러서 R파일 생성한다. ESC를 누르면 위와 같이 파란색이 되는데 그럼 해당 셀에 설정을 할 수 있다. M:마크다운으로 변환 Y:코드로 변환 R언어 기본 문법 기본 연산 c함수 seq함수 수열 연산 변수에 문자 할당 R언어 패키지 다운로드 ggplot2 이렇게 명령어만 해주면 설치가 되는데 설치한 이후에도 어떤 패키지를 쓸 것인지 정확하게 로드해줘야 한다. qplot MPG 데이터 활용 R언어 표 만드는 법 | 를사용해서 이렇게 만들고 :을 가지고 정렬 기준을 둔다 :--는 왼쪽 정렬 --: 오른쪽 정렬 위 마크다운을 실행하면 이렇게 된다. 그럼 위 mpg데이터 예제를 사용해보자 위와 같이 데이터를 용도에 맞는 타입으로 출력을 해야 가독성이 ..

R 2021.09.14