우공이산(愚公移山)

자신과 세상을 바꾸는 것은 머리좋고 가진것이 많은 사람이 아니라 결코 포기하지 않는 의지로 꾸준히 노력해 가는 사람이다. 오늘이 쌓여 내일을 만들고, 내일이 쌓여 인생을 만든다.

Data Science

[Data Science 기초][1] Series

보노보노 2022. 11. 28. 21:15
Series란? 데이터 처리를 위한 자료구조

 

1. pandas 자료구조

< pandas & numpy module >

 

pandas는 고수준의 자료 구조와 Python을 통한 빠르고 쉬운 데이터분석 도구를 포함하고 있다.

  • 명시적으로 축의 이름에 따라 데이터를 정력할 수 있는 자료구조를 제공.
  • 통합된 시계열 데이터 처리 기능을 제공.
  • 시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료구조 제공.
  • 누락된 데이터를 유연하게 처리가능.
  • SQL과 같은 데이터베이스처럼 데이터를 합치고(결합) 관계연산을 수행할 수 있다. 

 

2. Series

일련의 Object를 담을 수 있는 1차원 벡터

Index라고 하는 배열의 데이터에 연관된 이름을 가지고 있다. 

Series 객체의 문자열 표현은 왼쪽에 Index를 보여주고 오른쪽에 해당 Index에 해당하는 값을 보여준다. 

 

< int형 Series 데이터 >

 

  • numpy의 핵심 기능인 N차원의 배열 객체 ndarry(n demension array)는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조이다!!

Series에 데이터를 주고, index를 명시할 수 있다. 

Series는 Python 자료구조 중 dictionary와 유사하나 dictionary의 key값이 중복 허용이 되지 않는 것에 비해 Series의 index는 중복을 허용한다. 

 

< Series 선언 >

 

Series의 values와 index를 확인할 수 있으며, 인덱스를 이용하여 Series의 값에 접근할 수 있다.

 

< Series index & values >

 

또한 Index를 명시하여 value를 대입할 수 있고, ndarry연산이 가능하다. 

 

< Series 연산 >

 

그리고, True / False 연산 및 boolean indexing이 가능하며 유니버셜 함수 사용가능하다.

 

< True / False 연산 >

 

3. 참고

numpy란? 배열화된 객체라고 생각하자..

아까 Series가 파이썬의 딕셔너리랑 비슷하다고 했는데.. 그럼 딕셔너리를 이용해 Series를 만들 수 있을까?

< python dictionary와 Series >

 

딕셔너리를 이용해 Series를 만들 수 있겠으나 주의가 필요하다. 

 

다음글 : [Data Science 기초] DataFrame.

 

[Data Science 기초] DataFrame

이전 발행 글 : [Data Science 기초] Series [Data Science 기초] Series Series란? 데이터 처리를 위한 자료구조 1. pandas 자료구조 pandas는 고수준의 자료 구조와 Python을 통한 빠르고 쉬운 데이터분석 도구를 포

atozcode.tistory.com