Data Analysis
[Data Analysis] 파이썬 데이터 처리
c1oud9
2023. 4. 2. 13:33
자료형
- Number
- number 타입은 숫자 값을 저장.
- long 타입에 소문자 l을 사용할 수도 있지만 숫자 1과의 혼동을 피하기 위해 대문자 L을 사용함.
- int (부호있는 정수)
- long (int 보다 긴 정수, 8, 16 진수 표현 가능)
- float (부동 소수점이 있는 실수)
- complex (복소수)
- Strings
- 문자열은 인용 부호 사이에 있는 문자의 연속된 집합으로 식별
- 인용부호로 단일(') 또는 이중(") 따움표를 사용
- [:]을 사용하여 문자열의 하위 집합을 사용할 수 있음.
- index는 0 부터 전체 길이에서 -1 한 것 까지.
- '+' 기호는 문자를 더하는 것, '*' 기호는 문자를 반복하는 것.
- Lists
- 리스트는 복합 데이터 유형에 가장 유용.
- 리스트 내의 항목은 쉼표(,)로 구분하고 ([]) 사각 괄호 안에 포함되어 있음.
- C의 배열과 비슷하며 리스트에 속하는 모든 항목이 서로 다른 데이터 유형이 될 수 있음.
- [:] 을 사용하여 리스트를 액세스 할 수 있음.
- 리스트의 index는 부터 전체 항목수에서 -1 한 것 까지.
- '+' 기호는 연결 연산자, '*' 기호는 반복 연산자.
- Tuples
- 튜플은 리스트와 유사한 또 다른 시퀀스 데이터 형식.
- 튜플 내의 항목은 쉼표(,)로 구분, (()) 괄호 안에 포함되어 있음.
- C의 배열과 비슷하며 튜플에 속하는 모든 항복이 서로 다른 데이터 유형이 될 수 있음.
- [:] 을 사용하여 리스트를 엑세스 할 수 있음.
- 튜플의 index는 0 부터 전체 항목수에서 -1 한 것 까지.
- '+' 기호는 연결 연산자, '*' 기호는 반복 연산자.
- 리스트와 차이점은 읽기 전용인것.
- Dictionary
- dictionary (말 그대로 사전)는 쌍으로 만든 테이블 형식(해시)의 일종
- 연관 배열이나 해시처럼 작동 및 키-값(key-value) 쌍으로 구성
- key는 문자열, 숫자를 많이 사용
- value는 모든 유형과 임의의 파이썬 개체 일 수 있음.
판다스 라이브러리와 파이썬 자료형
- 데이터 분석구조 판다스는 파이썬과 비슷하지만 자료형 이름이 차이가 있음
Pandas 자료형 | Python 자료형 | 내용 |
object | string | 문자열 |
int64 | int | 정수 |
float64 | float | 소수점 숫자 |
datetime64 | datetime | 날짜 |
함수와 모듈
함수
- 컴퓨터 프로그래밍을 하다 보면 똑같은 내용을 반복해서 작성할 때가 자주 있는데 바로 함수가 필요한 때.
- 반복되는 부분이 있을 경우 "반복적으로 사용되는 가치 있는 부분"을 한 그룹으로 묶어서 "어떤 입력 값을 주었을 때 어떤 결과를 반환한다"는 식을 함수로 생각하면 됨.
def 함수명(매개변수):
<수행할 문장1>
<수행할 문장2>
...
모듈
- 함수나 변수 또는 클래스를 모아 놓은 파일.
- 모듈은 다른 파이썬 프로그램에서 불러와 사용할 수 있게 만든 파이썬 파일.
- 파이썬으로 빅러닝 작업을 할 때 많은 모듈을 사용.
- 다른 사람들이 이미 만들어 놓은 모듈을 사용할 수도 있고 직접 만들어서 사용할 수도 있음.
모듈 사용의 장점
- 모듈로 나누면 프로그램 작성과 관리가 용이
- 이미 작성된 코드를 다시 사용할 수 있음
- 공동 작업이 편해 짐
모듈 사용
- 모듈은 파로 파이썬에서 사용할 수 있는 것은 아니다.
- 사용하려면 해당 모듈을 파이썬에서 사용할 수 있도록 설정하는 명령을 실행해야 함.
- 파이썬에서 모듈을 사용하도록 설정하는 것을 모듈 임포트(import)라고 한다. 패키지를 임포트 하려면 다음 명령을 실행.