빅데이터 7

머신러닝 기본 이론

통계 기본 이론 예측 분석학 - 대전제는 역사는 반복적이다. - 과거 데이터에 대한 적합화를 수행하여 이를 테스트 - 결과 성능에 대한 척도가 검증되면 - 동일 모델에 대해서 미래 예측에 활용 독립 변수 - 관측치, 입력 변수, 특징, feature, 설명변수 등 종속 변수 결과 변수, 반응 변수, 응답 변수, 설명된 변수, 측정된 변수, 레이블, 실험 변수 등 변수들로 이루어진 수학식 - 이를 이용하여 계산 후 실제에 적용 - 이를 통해서 추정을 한다 -> 통계 학문 가정 - 항상 모든 변수들이 만족해야하는 기본 가정으로부터 시작한다. 머신러닝 - 의의 - 머신 러닝은 과거 경험에서 학습을 통해 얻은 지식을 미래의 결정에 이용하는 전산학의 한 분야 - 전산학과 공학, 통계학의 교집합으로 볼 수 있다 -..

카테고리 없음 2021.11.02

R/ 문자열 함수

문자열 데이터를 어떻게 가공하고 분석하는지에 대한 단원이다. "a"가 들어가있는 문자열을 찾아서 t/f값으로 반환해준다. 어떤 문자열을 분석하기위해선 원소별 패턴을 검사하는 방법부터 알아야 한다. 위문 법을 다음과 같이 응용할 수 도 있다. 이제 끝나는 문자 패턴을 분석할 때는 $를 사용한다 글자 수 분석 R의 특징이 R의 최소 단위가 백터이기 때문에 31번째 줄처럼 데이터를 넣어도 알아서 타입을 추론해서 분석해준다. 문자열 치환 위와 같이 파싱 하듯이 문자를 치환하는 방법도 있다. 공백으로 치환했기 때문에 ", "를 지워버린 격이 된 것이다. 위와 같이 데이터가 추출돼서 출력되는 것이지 animal이라는 데이터는 형태 그대로를 유지하고 있다. 공백 제거

R 2021.09.30

R/데이터 정제

이번엔 데이터를 짤 때에 온전한 데이터를 만들기 위해 정제하는 것을 포스팅해 보겠습니다. 결측치 na데이터가 2개 있다 하지만 큰 데이터는 눈으로 확인할 수 없으니 결측치 확인방법을 알아보자 그럼 어느 열에 어느변수에 결측치가 있는지 확인해보자 위와 같이 결측치가 있는 데이터는 연산할 수 없다고 나온다. 결측치 제거하기 그리고 결측치를 제거를할때 중요한 것은 결측치를 잘못 제거하면 그 데이터의 행이 다 날아갈 수 있기 때문에 주의해야 한다. na.rm =T를 사용해서 결측치를 제외해서 연산을 진행했다. 결측치 대체하기 55가 있던 자리에 NA값을 넣어놨었는데 위 코드로 인해서 55인 평균값으로 대체됐다. 그리고 원래는 열마다 결측치를 확인하는 과정을 거쳐야 한다. 데이터를 정제를 할 때 결측치도 정제를 ..

R 2021.09.23

R언어 기본 문법

주피터 노트북으로 가서 자신이 설정해놓은 경로로 가서 NEW 눌러서 R파일 생성한다. ESC를 누르면 위와 같이 파란색이 되는데 그럼 해당 셀에 설정을 할 수 있다. M:마크다운으로 변환 Y:코드로 변환 R언어 기본 문법 기본 연산 c함수 seq함수 수열 연산 변수에 문자 할당 R언어 패키지 다운로드 ggplot2 이렇게 명령어만 해주면 설치가 되는데 설치한 이후에도 어떤 패키지를 쓸 것인지 정확하게 로드해줘야 한다. qplot MPG 데이터 활용 R언어 표 만드는 법 | 를사용해서 이렇게 만들고 :을 가지고 정렬 기준을 둔다 :--는 왼쪽 정렬 --: 오른쪽 정렬 위 마크다운을 실행하면 이렇게 된다. 그럼 위 mpg데이터 예제를 사용해보자 위와 같이 데이터를 용도에 맞는 타입으로 출력을 해야 가독성이 ..

R 2021.09.14

빅데이터란?

빅데이터라는 분야가 너무 방대하다 보니 빅데이터가 뭔지부터 설명하는 포스팅을 해보겠습니다. 빅데이터란? 3V 일반컴퓨터로 더블클릭해서 열기 힘들 정도로 큰 데이터를 음성데이터같은 비 정형 데이터, 자연어 데이터를 다루고, 실시간으로 쌓이는 데이터를 즉각적으로 분석하는 것을 3V라고 한다. 4V 위세개를에 신뢰성 있는 데이터만 골라서 처리하는 것이다. 5V 위 네 개에 추가해서 데이터를 분석을 했을 때 새로운 가치를 창출할 수 있어야 한다라는 뜻이다. 그리고 사람이 엄청나게 큰 데이터를 한눈에 알아보기 위해서 Visualization(시각화)를 하는 것이 좋다.(그래프, 도표) 인공지능이 필요한 이유 -한 분야에 엄청나게 많은 학습이 된 인공지능을 개발하는 시간은 상대적으로 많은 시간이 걸리지 않지만 해당..

R 2021.09.14