Data Analysis

[Data Analysis] 파이썬 데이터 처리

c1oud9 2023. 4. 2. 13:33

 

 

 

자료형

  • Number  
    • number 타입은 숫자 값을 저장.
    • long 타입에 소문자 l을 사용할 수도 있지만 숫자 1과의 혼동을 피하기 위해 대문자 L을 사용함.
      • int (부호있는 정수)
      • long (int 보다 긴 정수, 8, 16 진수 표현 가능)
      • float (부동 소수점이 있는 실수)
      • complex (복소수) 
  • Strings  
    • 문자열은 인용 부호 사이에 있는 문자의 연속된 집합으로 식별
    • 인용부호로 단일(') 또는 이중(") 따움표를 사용 
    • [:]을 사용하여 문자열의 하위 집합을 사용할 수 있음.
    • index는 0 부터 전체 길이에서 -1 한 것 까지.
    • '+' 기호는 문자를 더하는 것, '*' 기호는 문자를 반복하는 것.
  • Lists  
    • 리스트는 복합 데이터 유형에 가장 유용.
    • 리스트 내의 항목은 쉼표(,)로 구분하고 ([]) 사각 괄호 안에 포함되어 있음.
    • C의 배열과 비슷하며 리스트에 속하는 모든 항목이 서로 다른 데이터 유형이 될 수 있음.
    • [:] 을 사용하여 리스트를 액세스 할 수 있음.
    • 리스트의 index는 부터 전체 항목수에서 -1 한 것 까지.
    • '+' 기호는 연결 연산자, '*' 기호는 반복 연산자.
  • Tuples
    • 튜플은 리스트와 유사한 또 다른 시퀀스 데이터 형식.
    • 튜플 내의 항목은 쉼표(,)로 구분, (()) 괄호 안에 포함되어 있음.
    • C의 배열과 비슷하며 튜플에 속하는 모든 항복이 서로 다른 데이터 유형이 될 수 있음.
    • [:] 을 사용하여 리스트를 엑세스 할 수 있음.
    • 튜플의 index는 0 부터 전체 항목수에서 -1 한 것 까지.
    • '+' 기호는 연결 연산자, '*' 기호는 반복 연산자.
    • 리스트와 차이점은 읽기 전용인것.
  • Dictionary
    • dictionary (말 그대로 사전)는 쌍으로 만든 테이블 형식(해시)의 일종
    • 연관 배열이나 해시처럼 작동 및 키-값(key-value) 쌍으로 구성
    • key는 문자열, 숫자를 많이 사용
    • value는 모든 유형과 임의의 파이썬 개체 일 수 있음.

 


 

판다스 라이브러리와 파이썬 자료형

  • 데이터 분석구조 판다스는 파이썬과 비슷하지만 자료형 이름이 차이가 있음
Pandas 자료형 Python 자료형 내용
object string 문자열
int64 int 정수
float64 float 소수점 숫자
datetime64 datetime 날짜

 


 

 

함수와 모듈

 

함수

  • 컴퓨터 프로그래밍을 하다 보면 똑같은 내용을 반복해서 작성할 때가 자주 있는데 바로 함수가 필요한 때.
  • 반복되는 부분이 있을 경우 "반복적으로 사용되는 가치 있는 부분"을 한 그룹으로 묶어서 "어떤 입력 값을 주었을 때 어떤 결과를 반환한다"는 식을 함수로 생각하면 됨.
def 함수명(매개변수):
    <수행할 문장1>
    <수행할 문장2>
    ...

 

모듈

  • 함수나 변수 또는 클래스를 모아 놓은 파일.
  • 모듈은 다른 파이썬 프로그램에서 불러와 사용할 수 있게 만든 파이썬 파일.
  • 파이썬으로 빅러닝 작업을 할 때 많은 모듈을 사용.
  • 다른 사람들이 이미 만들어 놓은 모듈을 사용할 수도 있고 직접 만들어서 사용할 수도 있음.

 

모듈 사용의 장점

  • 모듈로 나누면 프로그램 작성과 관리가 용이
  • 이미 작성된 코드를 다시 사용할 수 있음
  • 공동 작업이 편해 짐

 

모듈 사용

  • 모듈은 파로 파이썬에서 사용할 수 있는 것은 아니다.
  • 사용하려면 해당 모듈을 파이썬에서 사용할 수 있도록 설정하는 명령을 실행해야 함.
  • 파이썬에서 모듈을 사용하도록 설정하는 것을 모듈 임포트(import)라고 한다. 패키지를 임포트 하려면 다음 명령을 실행.