<개념>
-본격적인 분석에 앞서 테이터 정리하기
-raw 데이터를 통계 분석용 데이터로 정리하는 과정
-데이터마다 상황별로 적용해야할 클리닝 방법이 상이하므로 경우/상황에 맞게 데이터를 분류/정리해야 함
-같은 프로그램, 데이터를 사용해도 연구자마다 데이터를 담는 방식은 천차만별, 다양함
-실제 데이터 분석 과정에서 가장 귀찮고 하기 싫으면서도 시간도 가장 많이 잡아먹는 과정
->엉터리로 작업된(정리안된) 엑셀 내 데이터를 통계 프로그램에서 사용하기 쉽도록 다듬는 일
* 데이터 분석의 목적
1. 데이터를 요약하는 것
=> 데이터에 포함된 수치의 경향을 대략적으로 알 수 있음
=> 예) 평균값 계산 등
2. 대상을 설명하는 것
=> 대상이 가진 성질과 관계성을 명확히 밝히고 이를 이해 할 수 있음
=> 예) 관계성-인과 관계("oo하면 xx이 된다")와 상관 관계("한쪽을 변화시켰을때, 다른 한쪽이 변화할 수 있거나 없다")
3. 새로 얻을 데이터를 예측하는 것
=> 이미 얻은 데이터를 기반으로 이후 새롭게 얻을 데이터를 예측할 수 있음
=> 예) 의료나 비즈니스 현장의 의사 결정 등
<실행 예시>
-데이터마다 상황별로 적용해야할 클리닝 방법이 상이하므로 경우/상황에 맞게 데이터를 분류/정리해야 함
<엑셀에 데이터를 담을 때 주의 사항>
1. 머리글을 두 줄 이상으로 만들지 말자.
- 다른 통계 프로그램으로의 활용이 불편하다.
2. 열 이름이나 데이터 내부에 최대한 한글을 피하자.
- 인코딩(encoding) 등의 추가 작업이 필요할 수 있다.
- 열이름 작성시, 두 단어 사이를 띄어쓰지 않는다.
( 예: final test => finalTest 또는 final_test )
3. 성별과 같은 범주형 변수는 0, 1이 아니라 M, F처럼 문자로 표시하자.
- 회귀 분석 등에서 활용이 유용하다.
( 예: 성별 → 사망/생존 등 결과 표시)
4. 열 이름 안에 단위을 적지 말자.
- 단위에 특수 문자가 활용되므로 통계 처리 시 혼돈을 초래할 수 있다.
5. 하나의 시트에는 하나의 데이터 표만 담아 두자.
- 통계 처리 시 취약하며, 데이터 간 구분이 어려울 수 있다.
- raw 데이터 시트를 그대로 유지하고 복사하여 다른 시트에서 통계 작업을 한다.
석사논문 작성을 위한 기초 통계 6주 완성 - 크몽
용고opt2mot 전문가의 전자책 서비스를 만나보세요. 이런 분들이라면 놓치지 마세요 !!샐러던트: 대학원에서 연구를 시작하는 샐러던트대학원생: ...
kmong.com
'Future Strategy > 샐러던트' 카테고리의 다른 글
데이터 코딩 (0) | 2023.09.01 |
---|---|
스프레드시트spreadsheet (0) | 2023.08.31 |
석사 논문 경계 정하기 (0) | 2023.08.08 |
석사 논문 작성 기획 (0) | 2023.08.07 |
샐러던트를 위한 석사논문 16주 완성 - 석사논문 작성을 위한 기초 통계 6주 완성 (0) | 2023.08.06 |
댓글