L'URL de la vidéo embedée a été raccourcie de manière à ne pas intégrer les options de hauteur/largeur. Le titre est nettoyé pour ne pas avoir d'espace vide avant et après le texte. Les retours à la ligne sont aussi supprimés lors du scraping. La date est traduite au format J-MM-AAAA en attendant d'être entièrement compatible avec le format datetime. |
||
|---|---|---|
| CinemScraper | ||
| README.md | ||
| scrapy.cfg | ||
README.md
TODO
- Utiliser l'objet item de scrapy pour définir les vidéos et ses champs lien tuto
- Suivre les liens pour en récupérer le contenu lien tuto
- Enregistrer le résultat sur une base de données
- Vérifier/Eviter la présence de doublons sur la base de données
- Utiliser youtube-dl pour sauvegarder les vidéos
Développements annexes
- Créer un extracteur youtube-dl pour télécharger les vidéos de canal-u.tv
- Créer un script d'import du contenu sur une instance Peertube