2023. 6. 7. 23:52ㆍAWS 기반 데이터분석 처리 고급 SW 클라우드 개발자 양성과정
데이터 분석 일반 절차
요구사항 파악 -> 데이터 수집 -> 데이터 전처리 -> 데이터 분석 -> 데이터 시각화
1) 요구사항 파악
어떠한 데이터 분석을 할 것인지 결정. 요구사항이 무엇이고, 어떤 종류의 데이터 분석을 할 것인지 결정해야 함.
2) 데이터 분석
요구사항 파악에 따른 데이터 수집 과정을 걸쳐야함. In general, 한 개인이 모든 데이터를 갖고 있지 않고, 공공 기관들이 널리 사용할 수 있는 보편적인 데이터를 제공하는 경우가 많음. 저작권, 개인정보 문제로 온라인 열람을 하지 않을 경우, 직접 찾아가서 데이터를 열람하여 분석하려는 결과를 수집할 수 있음.
3) 데이터 전처리
수집 데이터가 분석의 근본적인 목적과 연관성이 없거나 경우에 따라서 유용하지 않을 수 있기 때문에 데이터를 정리해야함. ex) 데이터 중복, 누락, 오류 포함 가능성 -> 잘못된 데이터 분석을 수행하기 전 전처리가 되어야함. 잘못된 데이터를 이용한 분석은 사용자 및 참ㄱ자에게 오해를 일으키는 소지를 줄 수도 있음.
4) 데이터 분석
데이터 수집, 정리 및 전처리가 완려되었으면 분석 준비 완료. But, 데이터 전처리 시 추가적으로 필요한 정보를 더 얻어내야 한다거나 더 많은 데이터를 수집해야하는 경우도 발생할 수 있음.이 단계에서는 요구사항 이해 및 해석, 결론 도출에 도움이 되는 데이터 분석 도구와 S/W 사용 가능
5) 데이터 시각화
텍스트 형식의 데이터를 사용하면 눈에 잘 띄지않는게 다반사 -> 데이터 시각화를 사용시 조금 더 확실하게 데이터에 대한 내용을 전달할 수 있음. 데이터 시각화는 그래프로 나타냄(알려지지 않은 사실&경향을 발견시 사용됨)
ex) 특정 데이터 집합에서 이상치(outlier)를 찾아내는 데 사용될 수 있음.
집합 자료형
집합(iterable)자료형은 요소 1개가 아닌, 여러 개의 데이터를 처리하기 위한 자료형을 의미.
'반복될 수 있는, 반복 가능한'의 의미로 iterable 사용.
자료형 | 관련 함수 | 데이터 중복 가능 | 순서 있음 | 요소 개수를 반환하는 함수 | 사용 기호 |
리스트 | list() | ● | ● | len() | [ ] |
튜플 | tuple() | ● | ● | len() | ( ) |
딕셔너리 | dict() | 키 X, 값● | X | len() | { } |
1. 리스트
순서가 있는 여러 데이터를 묶어서 관리할 수 있는 자료형. 1차원 형식의 리스트를 만들고 데이터를 추출하기 위한 인덱싱과 슬라싱을 사용한 읽기와 쓰기. 인덱싱(indexing, 가리킴)과 슬라이싱(slicing, 잘라냄)은 요소마다 0부터 번호를 매겨 한 개(인덱싱) 또는 여러개(slicing)의 값을 추출하는 방법. 대괄호([ ])를 사용하고, 요소들을 콤마(,)로 연결하면 리스트가 됨.
[ ] = list() 와 동일함
#인덱스는 1개만, 슬라이싱은 여러개가 가능
somelist = [1 2 3 4 5 6 7]
print(somelist[1:4]) #2, 3, 4 (list는 종료 인덱스의 원소는 포함되지 않고 바로 앞 원소까지만 포함됨)
2. 튜플
튜플(tuple)은 리스트처럼 순서가 있는 여러 데이터를 묶어서 관리할 수 있는 자료형. However, 프로그램이 실행되는 동안 어떠한 값이 항상 변하지 않기를 바란다면 튜플을 사용해야 합니다. 튜플을 사용하기 위해서는 tuple()라는 내장 함수를 사용하여 소괄호(())를 사용하면 됩니다. ex) tuple01 = (10, 20, 30)
+ 연산자를 사용하면 이전 튜플에 새로운 값을 추가할 수 있음 (40)은 정수 값 1개로 인식하기 때문에, (40, )과 같이 (,)를 추가해야 튜플로 인식됩니다.
ㅇ두 개의 변수의 값을 교환하는 기능을 swap이라고 함.
# 튜플은 요소의 개수를 늘리거나 줄일 수 있지만, 값을 수정하는 것은 불가능
3. 딕셔너리
딕셔너리(dictionary)는 키(key)와 값(value)이 1대 1 대응을 가지고 있는 자료형.
ex) '이름: 김철수', '생일: 12/25"
딕셔너리는 중괄호({ })사용, 요소들은 콜론(:)을 중심으로 좌측/우측에 '키'와 '값을 표현하고 다른 요소들과 콤마(,)로 구분하면 됨.
항목 | 설명 |
문자열.split() | 문자열을 분리하여 리스트형을 만들어 주는데, seq의 기본값은 공백입니다. |
문자열.upper() | 문자열 목록을 모두 대문자로 바꿔줍니다. |
문자열.lower() | 문자열 목록을 모두 소문자로 바꿔줍니다. |
문자열.replace(oldstr, newstr) | 특정 문자열에서 oldstr을 newstr로 치환합니다. |
'joinstr'.join(iterable) | 반복되는 요소인 iterable(리스트, 튜플 등)에 대하여 'joinstr' 문자열을 사용하여 결합된 결과를 반환합니다. |
'AWS 기반 데이터분석 처리 고급 SW 클라우드 개발자 양성과정' 카테고리의 다른 글
도커 기초 (0) | 2023.06.29 |
---|---|
node-js (0) | 2023.06.29 |
Day14 (0) | 2023.03.23 |
0323 Review (0) | 2023.03.23 |
0323 정리 (0) | 2023.03.23 |