2020 코로나19 확진자 빅데이터분석

  • 연구목적
    • 코로나19 확진자 동선을 추적하여 확진자들 간의 상호 관련성 분석
    • 확진자들의 동선을 지도 등 그래픽으로 도시
  • 연구 방법
    • 1단계로 천안/아산 지역 확진자 동선 자료로 수집하여 엘라스틱서치에서 테스트
    • 2단계로 전지역 확진자 자료 수집 및 엘라스틱서치 구축 
    • 3단계로 스파크 상에서 질의 수행 분석
  • 연구 내용
    • 1단계: 천안 아신 지역
      • 천안 아산 지역 확진자 데이터 수집
      • 엘라스틱서치 색인
        • 구분 정보
          • id, 지역 id, 나이, 성별
          • 거주지
            • 이 후 지리 정보는 지역정보(주소), GPS 좌표(위도,경도)
          • 가족 사항: 확진자 가족
          • 기타: 신천지, …..
        • 확진자 동선
          • 방문지 시간
          • 방문 지역 정보: 지역정보(주소), GPS 좌표
      • 색인된 정보를 키바나로 표시
        • 확진자별로 지도상 동선 표시
        • 방문 지역별 확진자 표시
    • 2단계: 전지역에 위의 1단계 적용
    • 3단계: 스파크 상에서 질의 수행 분석
      • cone search query
        • 위치 별 확진자 거주지역, 확진자 방문 지역 검색
      • cross matching query
        • 확진자 간의 비교 검색 분석
      • knn search
        • 확진자 거주 지역 중신 가장 가까운 N개 검색
        • 확진자 방문 지역별 가장 가까운 N개 검색
  • 연구원
    • 김익환: 자료수집 책임
    • 고한설: 엘라스틱서치/키바나 구축 책임
    • 김혜진: 엘라스틱서치/키바나, 천안아산 지역 자료 수집
    • 이인재: 엘라스틱서치/키바나, 전국 자료 수집
    • 이승하: 전국 자료 수집

2020-03-06

  • 확진자 동선의 GPS 위치를 알아내기위해 주소->좌표 변환하는 프로그램
  • 교수님이 주신 한글파일을 Excel 로 변환하고 프로그램을 통해 빠르게 색인
  • python script 를 통해 es에 Lat,Lng 좌표를 포함한 데이터 색인 프로그램 작성 완료
  • 데이터 색인에 대해서 조금더 의견 수립중