본문 바로가기
Data Analysis

[Spatial Analysis] 공간 데이터 분석은?

by Urban communicator 2023. 10. 12.

안녕하세요. 이번에는 공간 분석을 공부해보려고 합니다. 여기에서는 먼저 공간 데이터 과학이 정확히 무엇인지, 그것을 사용하기 위해 알아야 할 기술은 무엇인지, 현재 직업에서 어떻게 사용할 수 있는지 또는 공간 데이터 과학 기술을 사용할 수있는 다른 방법과 정확히 무엇을 배워야하고 어디서 배워야하는지 살펴보도록 하겠습니다.

우리가 집중할 두 가지 중요한 개념이 있습니다. 첫째, 공간 데이터 과학은 데이터 과학의 하위 집합으로 공간 데이터의 고유한 특성에 초점을 맞추어 단순히 어떤 일이 발생하는 위치를 살펴보는 것을 넘어 왜 그런 일이 발생하는지 이해하는 것입니다. 둘째, 공간 데이터 과학은 위치 거리와 공간 상호 작용을 데이터의 핵심으로 취급하고 전문적인 학습 내용을 시각화하고 공간 사용 사례에 적용하는 방법과 소프트웨어를 말합니다. 즉, 첫 번째는 사건이 발생하는 공간을 이해하는 것과 두 번째는 거기에 도달하는 데 사용하는 도구를 의미합니다.

진정한 공간 데이터 과학은 위치 거리와 공간 상호 작용을 데이터의 핵심 측면으로 취급하고 특수 방법과 소프트웨어를 사용하여 저장, 검색, 탐색 등의 방법을 통해 공간 통계에서는 통계로, 공간 데이터베이스에서는 데이터베이스로, 지리 계산에서는 계산으로써 활용됩니다. 따라서 이 정의에서 다시 한 번강조하고 싶은 것은 공간적으로 왜 일이 발생하는지, 그리고 가장 중요한 것은 위치가 변경되고 데이터의 컨텍스트가 변경되는 경우 왜 그런 일이 발생하는지 그 변화를 주도하는 변수를 이해하고 왜 그런 일이 발생하는지에 초점을 맞추는 것입니다. 한편 두 번째 구성 요소는 완전히 다른 도구가 존재한다는 사실입니다. 중요한 것은 공간 데이터 과학을 수행하는 데 사용할 수있는 도구가 일반 공간 데이터 과학과 다르다는 것입니다.

왜 공간 데이터 과학이 빠르게 성장하고 주목받는지 몇 가지 이유가 있습니다. 첫 번째는 공간데이터가 빠르게 늘어가고 있습니다. 예전에 비즈니스 인텔리전스가 호황을 누리던 것처럼 최근 지리 공간에서도 비슷한 현상이 나타나고 있습니다. 이는 급성장하고 있는 언어인 Python의 성장 덕분입니다. 많은 사람들이 Python을 활용하는 많은 기술을 요구함에따라 실제 파이썬을 활용한 기술이 상당히 빠르게 개발되고 있습니다. 현대 GIS를 사용하는 경우에도 파이썬이 핵심 구성 요소로 여겨집니다. 또다른 통계 분석 도구인  R과 파이썬은 항상 무엇이 우위에 있는지 논쟁거리이지만 지난 몇 년 동안 파이썬이 일종의 승리를 거두고 있다고 생각하며 현대 GIS에는 파이썬으로 지리 공간을 사용하기 위한 많은 여지가 생기고 있습니다. 다음은 관련 일자리가 빠르게 성장하는 것과 관련이 있습니다. 확실히 데이터 과학 분야에서 일자리가 많이 생기고 있으며, 공간 데이터 과학을 통해 점점 더 많은 사람들이 공간 데이터 과학자를 요청하고 있습니다. 더 많은 지리공간 데이터베이스를 사용하고 그 안팎으로 데이터를 이동하는 것이 지리공간 데이터 엔지니어링에 더 적합할 수도 있고, 대시보드를 만들고 데이터를 분석하는 것이 지리공간 분석가에게 더 적합할 수도 있습니다. 현대의 지리공간 분야에서 한 가지 까다로운 점은 이러한 모든 역할이 묶여 있는 경향이 있고 많은 직무 설명에서 실제로 동일한 것을 요구하지만 아직 직무 설명을 자세히 세분화하지 않았다는 것입니다.

공간 데이터 과학자가되고 싶거나 공간 데이터 과학 기술을 사용하고 싶다면 실제로 할 수있는 네 가지 방법이 있습니다. 첫 번째는 순수한 공간 데이터 과학자가되는 것입니다. 이것이 의미하는 바는 실제로 이러한 상호 작용을 주도하는 기본 통계와 모델을 이해하고 실제로 자신의 모델이나 통계 방법을 작성할 수도 있다는 것입니다. 동료 연구 등을 사용하여 자신의 모델 이나 통계적 방법을 사용하는 것은 주로 학문적 공간이지만 지금 당장 당신의 일에 그것을 적용하고 싶다면 당신이 절대적으로 할 수있는 일이 무엇인지 파악하여 빠르게 적용할 수 있습니다. 공간 데이터를 실제로 사용하는 두 번째 방법은 공간 데이터 과학을 위한 놀라운 도구를 쉽게 사용할수 있다는 것입니다. 당신이 지리 분석가이거나 실제로 공간 데이터 과학자가되고 침입하려고한다면 오늘부터 사용하고 시작하십 시오. 파이썬은 제가 가장 좋아하는 라이브러리 중 하나입니다. 모두 파이썬으로 작성되었습니다. 훌륭한 문서와 자습서가 있으므로 오늘 시작할 수있을 때 관심이있는 것이라면 지오 판다와 같은 훌륭한 라이브러리와 통합되므로 시작하고 이러한 몇 가지를 시도하는 것이 정말 쉽습니다. 세 번째 경로는 실제로 순수 데이터 과학자이고 다른 도구와 기술을 사용하여 눈에 띄고 싶다면 공간 데이터 과학이 매우 좋은 방법입니다. 접근이 쉽지만 그리 만만하지만은 않은 지오 판다처럼 익숙하지 않은 다른 라이브러리를 사용하여 지리적 공간 데이터 및 기술의 기본 사항을 배워야한다는 것입니다.

그럼 지금부터 실제로 공간 분석에 활용되는 공간 데이터 과학 리소스 중 일부를 공유해보겠습니다. 첫 번째는 파이썬 공간 분석 라이브러리 인 pysal입니다. pysal은 공간 데이터 과학을위한 최고의 리소스이며 실제로 사용할 수있는 모델과 다양한 도구 및 기술이 포함되어 있습니다. 노트북 하나만 있으면 바로 시작할 수 있습니다. 시각화 모델링, 데이터 처리에 이르기까지 다양한 공간 데이터를 처리할 수 있는 아마도 최고의 툴킷 일 것입니다. 두 번째는 지리적 데이터 과학 책입니다. 여기에 있는 다양한 구성 요소 중 일부를 이해하는 데 가장 좋은 학습 리소스라고 생각합니다. 이것은 pysal과 그 안에있는 모델을 구축 한 여러 사람들의 제안에서 비롯된 것입니다. 다음의 링크에서 찾아볼 수 있습니다(Home — Geographic Data Science with Python). 세 번째 세 소스는 Dani Arribas-Bel의 온라인 튜토리얼입니다(ENVS363/563 — A course on Geographic Data Science (darribas.org)) 그는 리버풀 대학에서 실제로 사용하고 연습할 수있는 자신의 과정을 온라인에 게시하기 시작했습니다. 파이썬을 활용한 이 강의는 매우 유용할 것입니다.

마지막으로 공간 데이터 과학을 시작하는 데 가장 필요한 기술은 무엇일까요? 오늘은 공간 데이터 과학의 아주 기초에 대해서 집중할 것이므로 간략하게 설명하겠습니다. 첫 번째 기술은 파이썬입니다. 지금도 빠르게 성장하고 있으며 일반적인 데이터 과학뿐만 아니라 공간 데이터 과학에서도 최고의 언어 중 하나가 될 것입니다. 파이썬과 일부 핵심 분석 도구 및 라이브러리에 대한 기본 기반을 갖추는 것이 공간 데이터 과학을 사용하기 시작하고 목록 및 사전과 같은 데이터 구조를 잘 이해하는 데 정말 중요 할 것이라고 생각합니다. 사용을 권하는 패키지는 pandas와 GeoPandas를 이해하는 것입니다. 이제 데이터 프레임을 사용하는 방법 지오 데이터 프레임 기하학을 조작하고 이러한 도구에 대한 기본 작업 지식을 가지고 데이터를로드하여 데이터 프레임으로 가져온 다음 다른 라이브러리 내에서 사용하는 것이 정말 중요 할 것입니다. 그리고 pysal입니다. Pysal은 정말 중요하며 다시 한 번 공간 데이터 과학을 위한 최고의 단일 리소스입니다. 또한 SQL이 매우 중요합니다. 공간 SQL은 공간 데이터베이스로 점점 더 많은 데이터가 확장되고 사용됨에 따라 공간 SQL을 사용하여 구성하는 것이 정말 중요합니다. 

댓글