이 포괄적인 스크립트는 파이썬, SQL, R을 혼합 사용하여 자전거 공유 서비스의 데이터를 분석하고 시각화하는 다면적 접근법을 보여줍니다. 프로젝트의 다양한 방법론은 동일한 데이터셋을 사용하여 사용자 행동과 운영 인사이트에 대한 철저한 이해를 제공합니다. 이 프로젝트의 주요 측면은 다음과 같습니다:
-
파이썬 데이터 분석 및 시각화:
- 데이터 준비: 데이터셋을 DataFrame으로 로딩하고 행 수 및 데이터 타입과 같은 주요 특성 검토하기.
- 데이터 클리닝: 누락되거나 중복된 데이터를 식별하고 처리하여 데이터 품질 향상시키기.
- 지표 계산: 고유 역 수, 여행 기간, 사용자 유형별 수익과 같은 핵심 지표 계산하기.
- 이상치 탐지: 'started_at' 및 'ended_at' 타임스탬프를 검토하여 데이터 무결성 보장하기.
- 시각화: 수익 및 사용 빈도를 비교하기 위한 파이 차트와 막대 차트 사용 및 Seaborn을 사용하여 일별 및 시간별 사용 패턴에 대한 히트맵 생성하기.
- 공간 분석: Folium을 사용하여 노선과 역을 플로팅하여 공간적 추세 분석하기.
- 시간 분석: 가장 인기 있는 노선, 역 사용 빈도 분석 및 타겟 마케팅을 위한 최고 사용 시간 식별하기.
-
집계 분석을 위한 SQL 쿼리:
- 비회원 사용자에 초점을 맞추어, SQL 쿼리는 여러 테이블에 걸쳐 자전거 대여 데이터를 집계합니다.
- 각 역에서 시간당 자전거 대여 빈도를 계산하여 가장 인기 있는 역과 시간을 드러냅니다. 이는 비회원 사용자 참여 이해와 서비스 개선 계획에 중요합니다.
-
고급 히트맵 시각화를 위한 R:
- R의 ggplot2를 사용하여 하루의 다양한 시간에 자전거 대여 빈도를 시각적으로 표현하는 상세한 히트맵을 생성합니다.
- 시작 및 종료 역 모두에 대해 생성된 히트맵은 고요구 지역 식별 및 자전거 할당 최적화에 도움을 줍니다.
전반적으로, 이 프로젝트는 파이썬, SQL, R을 조화롭게 적용하여 포괄적인 데이터 분석 및 시각화를 수행하는 강력한 예시로서 자리매김합니다. 다언어 데이터 과학이 도시 이동성 및 대중 교통 서비스에 있어 더 풍부한 통찰력과 더 효과적인 시각화를 제공할 수 있음을 보여줍니다.