본문 바로가기

luwaz의 일상 팔레트/luwaz의 코딩 이야기

2024.4.27 Data 분석 연습(국민연금공단)

사업장명 정리하기

사업장명을 보면 (주) , [주], 주식회사 등등의 단어들이 적혀 있는데

보기 싫어서 정리를 하고 싶었다.

def를 사용하여 함수를 만들었고  re를 사용하였다.

정규 표현식(Regular Expression)은 문자열에서 패턴을 찾거나 원하는 형태로 변환할 수 있도록 해주는 검색도구이다.

이렇게 코드를 입력해 주면 사업장명이 잘 정리돼서 나오는 것을 알 수 있다.

회사별 국민연금 가입자수 확인하기 

회사별 국민연금 가입자 수 가 궁금하여 그래프로 나타내 보기로 하였다.

그래프를 그리기 위해 matplotlib을 사용하였고 막대그래프를 사용하였다.

대충 대한민국 사람들을 먹여 살리는 기업들을 알 수 있었다.

국민연금 납부금액을 활용한 회사별 연봉추정

국민연금납부금액과 국민연금가입자수를 알고 있으므로 

회사별 연봉을 구할 수 있었다.

국민연금은 당월고지금액에서 가입자수를 나누어 주면 된다.

국민연금은 보통 소득의 9%이기 때문에 위의 식대로 계산하면 알 수 있는데 

단위가 이상하게 나왔다.

소수점 자리를 없애주는 코드를 작성한 후 다시 실행시키면 된다.

이 data의 신뢰성 유무를 생각해 봤을 때 내 월급을 기준으로 신뢰성이 있다고 판단하였다.