헬창 개발자
[빅데이터 프로젝트] 서울시 최적의 도시 숲 위치추천을 위한 미세먼지 상관관계 분석 방법 본문
미세먼지는 대기 중 장기간 떠다니는 인위적으로 발생하는 지름 10㎛ 이하의 먼지를 지칭한다.
미세먼지 줄이기 위해서는 도시 숲을 만들어 미세먼지를 정화하는 작업이 필요하다. 도시 숲이란 도시에서 국민의 보건 및 휴양 증진을 위한 산림 및 수목을 말한다. 이런 도시 숲은 열섬현상과 완화와 미세먼지 감소 효과가 있다는 연구가 있다.
하지만 이런 도시 숲을 최적의 위치에 조성하기 위해서는 미세먼지의 영향을 주는 요인에 대해 상관관계를 분석해야 하며 도시 숲이 조성되었을 때 미세먼지 증감률을 비교할 수 있어야 한다.
특정 지역의 미세먼지 상관관계를 분석하기 위해 서울시를 대상으로 정했다. 데이터 수집은 서울시 열린 데이터광장에서 제공하는 데이터를 활용하였다.
데이터의 전처리를 위해 필요한 컬럼을 서울시 행정구에 맞게 전처리를 진행한 뒤 단위를 통합 해줬다. 하루평균 미세먼지(PM10), 생활인구 데이터 경우 월평균 단위의 통합이 필요하여 하둡 환경에서 맵리듀스를 이용해 각 구에 대한 1년 치 평균을 계산하였다.
미세먼지의 상관계수는 교통량이 0.21로 양의 상관관계가 제일 높았으며, 음의 상관관계는 녹지면적으로 –0.02로 제일 낮았다. 결과로 미세먼지가 증가요인에는 교통량 영향이 제일 크며, 감소요인에는 녹지면적이 제일 크다는 결과를 도출했다.
2020년 12월을 기준으로 일 평균 중구의 미세먼지, 교통량 비율을 나타낸 것이다. 교통량이 증가하는 일에는 미세먼지도 증가하는 경향을 보인다. 따라서 미세먼지 노출량 증감에 영향을 주는 요인으로는 교통량이 영향을 준다는 결과를 확인할 수 있다.
아래 그림은 서울시 자치구별 데이터의 비율을 시각화한 것이다. 동작구는 미세먼지가 제일 높았으며 이에 따른 교통량도 높다는 결과를 보였다. 반면 강남구는 미세먼지가 제일 낮았으며 녹지면적이 제일 높다는 결과를 보였다. 각 자치구의 미세먼지의 영향을 주는 요인으로는 교통량이 제일 높았으며 생활인구는 영향력이 제일 낮았다.
상관관계 분석 결과를 통해 녹지의 비율을 미세먼지 예측모델의 개입 모형으로 넣어 녹지의 증감의 따른 미세먼지 예측모델을 구현하였다.
왼쪽은 녹지 증가율이 없는 모델이며 오른쪽은 녹지의 증가율이 있는 모델이다. 녹지 비율이 증가함에 따라 미세먼지 예측값은 감소하는 경향을 보인다.
최적의 도시 숲을 추천하기 위해 미세먼지의 영향을 주는 음의 상관관계 변수와 양의 상관관계 변수를 이용해 바람길 점수 수식을 제안한다.
수식은 아래 그림의 포함되어있으며 결과를 시각화하여 나타냈다.
서초구, 용산구, 강서구가 생활인구 대비 자치구 면적과 교통량을 공원, 녹지, 산림과 비교하였을 경우 도시 숲이 잘 갖춰진 자치구임을 도출하였다. 반면 바람길 점수가 낮게 나온 중구, 동대문구, 송파구는 도시 숲이 우선으로 필요한 구임을 도출하였다.
'프로젝트' 카테고리의 다른 글
[졸업 프로젝트] 감정 -2- (0) | 2023.02.03 |
---|---|
[졸업 프로젝트] 감정 -1- (0) | 2023.02.03 |
[안드로이드 프로젝트] 반려동물 케어 앱 럽펫 (0) | 2022.12.10 |
감정분석 모델을 활용한가상환경 플레이어의 감정표현 기법 (0) | 2022.07.26 |
2022년 전라북도 공공데이터 활용 창업경진대회 참여 후기 (1) | 2022.07.11 |