1일차

2023. 6. 7. 23:52AWS 기반 데이터분석 처리 고급 SW 클라우드 개발자 양성과정

데이터 분석 일반 절차

요구사항 파악 -> 데이터 수집 -> 데이터 전처리 -> 데이터 분석 -> 데이터 시각화

 

1) 요구사항 파악

어떠한 데이터 분석을 할 것인지 결정. 요구사항이 무엇이고, 어떤 종류의 데이터 분석을 할 것인지 결정해야 함.

 

2) 데이터 분석

요구사항 파악에 따른 데이터 수집 과정을 걸쳐야함. In general, 한 개인이 모든 데이터를 갖고 있지 않고, 공공 기관들이 널리 사용할 수 있는 보편적인 데이터를 제공하는 경우가 많음. 저작권, 개인정보 문제로 온라인 열람을 하지 않을 경우, 직접 찾아가서 데이터를 열람하여 분석하려는 결과를 수집할 수 있음.

 

3) 데이터 전처리

수집 데이터가 분석의 근본적인 목적과 연관성이 없거나 경우에 따라서 유용하지 않을 수 있기 때문에 데이터를 정리해야함. ex) 데이터 중복, 누락, 오류 포함 가능성 -> 잘못된 데이터 분석을 수행하기 전 전처리가 되어야함. 잘못된 데이터를 이용한 분석은 사용자 및 참ㄱ자에게 오해를 일으키는 소지를 줄 수도 있음.

 

4) 데이터 분석

데이터 수집, 정리 및 전처리가 완려되었으면 분석 준비 완료. But, 데이터 전처리 시 추가적으로 필요한 정보를 더 얻어내야 한다거나 더 많은 데이터를 수집해야하는 경우도 발생할 수 있음.이 단계에서는 요구사항 이해 및 해석, 결론 도출에 도움이 되는 데이터 분석 도구와 S/W 사용 가능

 

5) 데이터 시각화

텍스트 형식의 데이터를 사용하면 눈에 잘 띄지않는게 다반사 -> 데이터 시각화를 사용시 조금 더 확실하게 데이터에 대한 내용을 전달할 수 있음. 데이터 시각화는 그래프로 나타냄(알려지지 않은 사실&경향을 발견시 사용됨)

ex)  특정 데이터 집합에서 이상치(outlier)를 찾아내는 데 사용될 수 있음.


집합 자료형

집합(iterable)자료형은 요소 1개가 아닌, 여러 개의 데이터를 처리하기 위한 자료형을 의미.

'반복될 수 있는, 반복 가능한'의 의미로 iterable 사용.

자료형 관련 함수 데이터 중복 가능 순서 있음 요소 개수를 반환하는 함수 사용 기호
리스트 list() len() [ ]
튜플 tuple() len() ( )
딕셔너리 dict() 키 X, 값● X len() { }

1. 리스트

순서가 있는 여러 데이터를 묶어서 관리할 수 있는 자료형. 1차원 형식의 리스트를 만들고 데이터를 추출하기 위한 인덱싱과 슬라싱을 사용한 읽기와 쓰기. 인덱싱(indexing, 가리킴)과 슬라이싱(slicing, 잘라냄)은 요소마다 0부터 번호를 매겨 한 개(인덱싱) 또는 여러개(slicing)의 값을 추출하는 방법. 대괄호([ ])를 사용하고, 요소들을 콤마(,)로 연결하면 리스트가 됨. 

[ ] = list() 와 동일함

#인덱스는 1개만, 슬라이싱은 여러개가 가능

somelist = [1 2 3 4 5 6 7]

print(somelist[1:4]) #2, 3, 4 (list는 종료 인덱스의 원소는 포함되지 않고 바로 앞 원소까지만 포함됨)

 

2. 튜플

튜플(tuple)은 리스트처럼 순서가 있는 여러 데이터를 묶어서 관리할 수 있는 자료형. However, 프로그램이 실행되는 동안 어떠한 값이 항상 변하지 않기를 바란다면 튜플을 사용해야 합니다. 튜플을 사용하기 위해서는 tuple()라는 내장 함수를 사용하여 소괄호(())를 사용하면 됩니다. ex) tuple01 = (10, 20, 30)

+ 연산자를 사용하면 이전 튜플에 새로운 값을 추가할 수 있음 (40)은 정수 값 1개로 인식하기 때문에, (40, )과 같이 (,)를 추가해야 튜플로 인식됩니다.

ㅇ두 개의 변수의 값을 교환하는 기능을 swap이라고 함.

# 튜플은 요소의 개수를 늘리거나 줄일 수 있지만, 값을 수정하는 것은 불가능

 

3. 딕셔너리

딕셔너리(dictionary)는 키(key)와 값(value)이 1대 1 대응을 가지고 있는 자료형.

ex) '이름: 김철수', '생일: 12/25"

딕셔너리는 중괄호({ })사용, 요소들은 콜론(:)을 중심으로 좌측/우측에 '키'와 '값을 표현하고 다른 요소들과 콤마(,)로 구분하면 됨.

#pop함수 키를 찾아서 해당 값을 반환해주는 함수. 딕셔너리 내부요소가 제거되므로 유의하여 사용
print('\npop()를 이용한 데이터 끄집어 내기')
#팝업된 정보의 value가 result에 대입된다.
print(dictionary)
result = dictionary.pop('김구') #pop을 하면 key: value가 전체 제거되는데
print('pop 이후의 사전 내용 : ', dictionary)
print('pop된 내용 : ', result)

항목 설명
문자열.split() 문자열을 분리하여 리스트형을 만들어 주는데, seq의 기본값은 공백입니다.
문자열.upper() 문자열 목록을 모두 대문자로 바꿔줍니다.
문자열.lower() 문자열 목록을 모두 소문자로 바꿔줍니다.
문자열.replace(oldstr, newstr) 특정 문자열에서 oldstr을 newstr로 치환합니다.
'joinstr'.join(iterable) 반복되는 요소인 iterable(리스트, 튜플 등)에 대하여 'joinstr' 문자열을 사용하여 결합된 결과를 반환합니다.

 

'AWS 기반 데이터분석 처리 고급 SW 클라우드 개발자 양성과정' 카테고리의 다른 글

도커 기초  (0) 2023.06.29
node-js  (0) 2023.06.29
Day14  (0) 2023.03.23
0323 Review  (0) 2023.03.23
0323 정리  (0) 2023.03.23