헬창 개발자

전북 청년 빅데이터 경진대회 참여 후기 본문

프로젝트

전북 청년 빅데이터 경진대회 참여 후기

찬배 2023. 12. 10. 19:32

4학년 2학기는 대회 준비때문에 많이 바쁘게 흘러 갔다.

 

원래 취준을 하려고 했는데 아직 부족한게 많고 대외활동도 하고 싶어서 미뤘다가 마침 빅데이터 경진대회가 있다고해서 참여를 했다.

 

연구는 항상 가설을 세우는게 중요한거 같다.

 

우리 팀의 가설은 전라북도의 에너지 자립도가 최하이이며 그중 전주시가 제일 낮다라는 기사를 발견하고 데이터를 수집했다. 에너지 자립을 높일 수 있는 방법을 찾기위해 태양광 발전기를 생각했고 에너지 자립도가 낮은 행정동에 풍부한 일조량등등 태양광 발전기가 도입 될 수 있는 최적의 위치를 분석했다.

 

 

데이터 분석 모델링은 다음 처럼 설계했다.

 

데이터를 수집하면서 느낀점은 전라북도에서 제공하는 데이터가 너무 적다는것이다.

서울시 데이터포털만해도 방대한 데이터인데 전라북도는...

 

 

수집한 데이터를 행정동 단위로 전처리를 하고 시각적으로 확인하기 이해 EDA를 진행했다.

 

전력 소비량, 태양광 설비수를 확인했을때 높은 수치를 보여서 밀도 기반으로 다시 확인해 봤더니 태양광 설비가 높다고 행정동에 고르게 분포하는게 아니라는 것을 확인 했다.

 

 

데이터를 상관관계를 분석해봤는데 높은 관계는 나오지 않았다. 그래도 서로에 어느정도 영향력이 있다고 판단했기에 다중공선성을 제거하여 상관 설명력을 낮췄다.

 

군집 분석을 위해 랜덤포레스트를 사용해 비중이 낮은 컬럼을 제거하며 엘보우 메소드를 통해 최적의 k를 찾았다.

 

행정동을 군집분석하기위해 PCA를 통해 시각화와 하이아티컬을 이용해 군집을 분석했다.

결과로 클러스터1은 산업단지라서 이상치 값이 되었다 그래서 결과에서 제외했고 클러스터 0은 에너지 자립이 높은 행정동 클러스터2는 에너지 자립이 낮은 행정동으로 분류가 됐다.

 

 

이제 군집분석이 됐으니까 에너지 자립이 낮으면서 일조량이 높으며 다른 상관관계 요인이 될 수 있는 최적의 태양광 발전기 설치 지역을 분석하기위해 PCA loading을 이용해 지표점수 산출식을 만들었다.

 

 

분석 결과 송천1동, 평화2동, 효자4동이 태양광 발전기 권장 지역으로 선정 되었다.

 

 

 

Comments