Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

PIPELINE-EXTRACT-TW - Création du pipeline #7

Closed
KyllianBeguin opened this issue May 27, 2023 · 8 comments
Closed

PIPELINE-EXTRACT-TW - Création du pipeline #7

KyllianBeguin opened this issue May 27, 2023 · 8 comments
Assignees

Comments

@KyllianBeguin
Copy link
Owner

Objectif

Créer un pipeline qui va extraire les données depuis Twitter et les charger dans une base de données.

Ce que je propose

  • Utiliser Python pour développer rapidement
  • Utiliser snscrape pour extraire les données depuis Twitter.
@KyllianBeguin
Copy link
Owner Author

😒 Pas de doc... Mais des tuto.

La bibliothèque snscrape n'est pas documentée...
J'ai trouvé cet article sur Medium. Il date du 23 mars 2022, donc à voir.

@KyllianBeguin
Copy link
Owner Author

😒 Pas de doc... Mais des tuto.

La bibliothèque snscrape n'est pas documentée... J'ai trouvé cet article sur Medium. Il date du 23 mars 2022, donc à voir.

Ne fonctionne pas, j'essaye cet autre article Medium

@KyllianBeguin
Copy link
Owner Author

💩 C'est la merde, erreurs 403 dans tous les sens

Toutes les personnes qui utilisent snscrape ont des erreurs 403...
Voyez-donc >> JustAnotherArchivist/snscrape#834

@KyllianBeguin
Copy link
Owner Author

💩 C'est la merde, erreurs 403 dans tous les sens

Toutes les personnes qui utilisent snscrape ont des erreurs 403... Voyez-donc >> JustAnotherArchivist/snscrape#834

Ah, j'ai peut-être trouvé >> JustAnotherArchivist/snscrape#846 (comment)

@KyllianBeguin
Copy link
Owner Author

Ah, j'ai peut-être trouvé >> JustAnotherArchivist/snscrape#846 (comment)

Ça fonctionne ! 🚀

@KyllianBeguin
Copy link
Owner Author

🟢 L'extraction et le chargement en base fonctionnent !

image

Je ferme cette issue :)

@KyllianBeguin
Copy link
Owner Author

KyllianBeguin commented Nov 8, 2023

🚨 Snscrape down

En lançant le pipeline aujourd'hui, j'ai remarqué qu'il crash
Il semblerait que ce soit à cause de snscrape qui rencontre un problème pour communiquer avec Twitter (Erreur 404)

Le lien ver l'issue snscrape : All Twitter scrapes are failing: blocked (404)

🧐 Solution identifiée : Utilisation de BetterTwitFix, une API qui peut scrap un tweet comme indiqué dans l'issue 996
Lien vers le projet : BetterTwitFix
Lien vers le sample de code : Sample de code avec BetterTwitFix

@KyllianBeguin
Copy link
Owner Author

👀 Récupération des id de tweets récents

BetterTwitFix fonctionne pour les Tweets récents et consomme un id de tweet.
Il est possible de récupérer les ids via une recherche google grâce à la lib google

L'idée serait de faire :
1️⃣ Query via lib google : "réforme des retraites" site:twitter.com before:2023-11-09
2️⃣ Découpage url + stockage de l'id (devrait être en bout d'url)
3️⃣ Requête de https://api.vxtwitter.com/Twitter/status/{tweet_id}
4️⃣ Récupération des données
5️⃣ Stockage texte dans mongo

image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants