Mit Hilfe der kostenlosen HVV API können mit diesem Projekt die Fahrten und Verspätungen der HVV Live in Hamburg auf einer Karte projiziert werden, um mögliche Einflüsse von Ereignissen (z.B. Wetter, Fußballspiele, Dom, etc.) zu analysieren. Dabei wird automatisch eine Heatmap der bereits gespeicherten Ereignisse erzeugt.
Note
Das Projekt ist im Rahmen des Moduls "Datenmanagement und Algorithmen für Big Data" im Studiengang "Master Informatik" der HAW Hamburg entstanden und hat nichts mit der HVV zu tun.
Demo (Bild)
Zunächsten sollten Einstellungen als Umgebungsvariablen in der sample.env
gesetzt werden. Im Anschluss wird diese in .env
umbenannt. Dann sollten alle Dependencies installiert werden:
pip install -r requirements.txt
cd ./deployment/k8s/kafka
kubectl apply -f 01-zookeeper-deployment.yaml
kubectl apply -f 02-broker-deployment.yaml
cd ../mongo
kubectl apply -k .
kubectl port-forward <POD-NAME-DES-BROKERS> 9092
Important
- IP Adresse des Zookeepers (
kubectl get services
) muss in der 02-broker-deployment.yaml in der jeweiligen Zeile ergänzen - In der
/etc/hosts
muss folgende Zeile ergänzt werden:127.0.0.1 kafka-broker
Requriements:
- Docker
- Docker-Compose
cd ./deployments/docker/
docker-compose -f mongo.yml up -d
docker-compose -f kafka.yml up -d
python server.py
und 🔗 Frontend starten
2) Luigi Frontend starten:
luigid --logdir tmp
Luigi ETL manuell starten (--local-scheduler
wenn ohne Frontend):
python -m luigi --module src.etl.propagate propagate [--local-scheduler]
Oder als Cronjob alle x Sekunden automatisiert:
chmod +x run_luigi.sh
./run_luigi.sh -t <SECONDS>
- Streaming Komponenten:
PySpark, Kafka - Datenbanksystem:
MongoDB, da JSON - ETL Pipeline:
Luigi von Spotify - Entwicklungsumgebung:
Java, Python
Die Ursprungs JSON-Struktur ist zu groß und nicht notwendig, wird daher unkonventiert. Eine Datei pro eindeutigen Objekt mit ID:
Schlüssel: -origin:key-destination:key-.json, bsp.: X35-90010-90011-1668513180
{
"_id": "X35-90010-90011-1668513180",
"line": "X35",
"vehicleType": "REGIONALBUS",
"timestamp": 1668513240,
"startDateTime": 1668513180,
"endDateTime": 1668513300,
"startStationName": "Ahrensburg, Meisenweg",
"endStationName": "Ahrensburg, Teichstraße",
"tracks": {
"start": [34.232, 54.232],
"end": [35.232, 55.232],
"course": [35.232, 55.232]
},
"realtimeDelay": 0,
"destination": "UK Eppendorf",
"origin": "Sorenkoppel"
}