AI·데이터 분석 3

R에서 좌표 거리계산

지표 위에 있는 두 지점의 거리를 계산할 때는 유클리드 거리를 사용할 수가 없다. 두 지점이 평평한 지면 위에 놓여있다는 전제를 갖고 있는 유클리드 거리는 타원체인 지구 표면에서는 사용할 수가 없다. 물론 아주 근접한 지점을 측정한다면 오차가 크지는 않다. 따라서, 지구의 형태를 모델링한 다양한 지구 타원체 가정과 거리를 계산하는 알고리즘이 있다. 240만개와 20만개의 지점 간 거리 계산을 위해서는 상당한 속도와 쓸만한 정확도를 가진 알고리즘 선정이 필요했고, 아래와 같은 실험을 통해 Meeus 알고리즘을 채택했다. geosphere 라이브러리에서 제공하는 거리계산 알고리즘 성능 비교 OpenR studio / 240만개(map_A) x 8개(map_B) 거리 계산 # 수행속도 정확도 1 distVin..

지방행정인허가 데이터 좌표계 변환

지방행정인허가데이터에는 중부원점TM 좌표계로 위치정보를 제공한다. 일제강점기에 작성된 측량지도로 시작해 현재까지 건축/토목에서 많이 사용하는 좌표계라고 한다. 문제는 각종 데이터분석이나 GIS분석에서는 WGS좌표계를 사용한다는 것이다. 중부원점TM 좌표계 - 철원 어디쯤을 x, y = 0, 0으로 놓고 떨어진 거리를 Meter단위로 표기 - 문제는 일제시대 측량의 기준이던 일본좌표계의 원점인 동경원점 측정에 오류가 있었다고 한다. - 지방행정인허가 데이터는 이 오류를 수정한 값으로 제공을 한다. - 타원체 가정은 Basel 타원체를 사용한다 매우 불친절한 매뉴얼의 한계로 며칠 동안 인터넷을 뒤져, 변환로직을 세울 수 있었다. 분석 환경은 Open R Studio였고, sf 라이브러리를 사용했다. #인허가..

공공데이터 읽어주는 남과 여 – 지도 1 : 서울 어린이집

최근, 공공데이터와 인포그래픽이 이슈로 부상하면서 그 의미와 활용에 대한 논의가 활발하다. 이에 코드나무는 공공데이터를 이용해 새로운 이야기와 이슈를 전달하는 데이터저널리즘/인포그래픽 프로젝트를 진행했다. 프로젝트는 디자이너 1인과 기획자 1인 총 2명이 공동으로 진행했으며, 데이터 추출 등의 일부 작업은 외부 전문가의 도움을 받았다. 이번 프로젝트를 통해 어떤 공공데이터들이 개방돼 있으며, 개방된 데이터들이 얼마나 우리 삶에 도움을 줄 수 있는 정보를 담고 있는지를 알아보고, 앞으로의 공공데이터 개방과 활용에 대해 함께 고민하는 계기가 되길 바란다. 공공데이터를 읽어주는 남과여 – 지도시리즈 1 : 서울 어린이집 1. 데이터의 추출과 가공 #. 사용 데이터와 출처 서울 소재 어린이집 현황 데이터 – 아..