본문 바로가기

luwaz의 일상 팔레트/luwaz의 코딩 이야기

2024.4.22 Data 분석 연습(국민연금공단)

Data 분석을 연습하기 위해 공공데이터 포털(https://www.data.go.kr/index.do)에서

국민연금공단_국민연금 가입 사업장 내역을 다운로드하였다.

Data 분석 시작

나는 jupyter를 사용하기 때문에 프로그램을 실행시킨 후 

이 코드를 작성하였다.

한글의 경우는 encoding='cp949'를 입력하지 않으면  err를 발생하기에 꼭 입력을 해줘야 한다.

대충 필요 없어 보이는 column들을 정리한 후 Data를 출력하였다.( axis=1을 적어주어야 열을 drop 시킬 수 있다)

사업장 업종의 총 개수          

문득 대한민국 국민연금에 가입되어 있는 사업장 업종의 총개수가 궁금하였다.

사업장 업종 코드가 있고 사업장 업종 코드 명이 있는데 

공통된 부분을 을 제외하고 총 몇 개인지 구해보자

len함수와 unique함수를 사용해서 구할 수 있었다.

구해보니 개수가 틀려서 결측치가 있는지 또 찾아보았다.

unique함수는 특정 열에서 고유한 값들을 찾고 싶을 때 사용하는 함수이다. 중복된 값을 제거하고 고유한 값만 나타낸다.
len 함수는 항목들의 개수를 나타내 준다.

isna 또는 isnull을 사용하면 된다.

isna와 isnull함수는 결측치를 나타내는 함수인데 모든 열에 결측치가 아니면 False 결측치 이면 True로 변환해 준다. 이런 걸 Boolean type이라고 한다.

사업장 업종 코드 명에 결측치가 많아 해당열을 삭제시킨 후 

대한민국 국민연금 가입되어 있는 사업장의 업종은 2684개 라는 사실을 알게 되었다.