Récupération des podcasts de France Musique
Go to file
Yohann Dedy 69f69ba534 README.md : Ajout modèle BDD 2019-12-01 23:42:18 +01:00
FMScraper Nettoyage url fichier 2019-12-01 22:01:20 +01:00
README.md README.md : Ajout modèle BDD 2019-12-01 23:42:18 +01:00
scrapy.cfg first commit 2019-11-26 22:02:40 +01:00

README.md

Scraper des émission de France Musique

Pourquoi

  • Parce que les podcasts n'ont qu'une durée de vie de trois ans (et parfois moins via flux RSS)
  • Les informations complémentaires comme les playlists ou les interprêtes ne sont pas visibles dans le flux RSS
  • Parce qu'à assassiner le service public, certains dirigeants seraient capables de brûler des archives comme ils brûlent déjà des postes par souci de soi disante économie.

À faire/étudier

  • Récupérer les informations de l'émission
  • Importer les informations dans une base de données
  • Mettre à disposition un script pour créer la BDD
  • Automatiser le téléchargement des éléments vers un point donné
  • Récupérer les images illustrant les épisodes

Tables de la base RFScraper

''' CREATE TABLE station( id serial PRIMARY KEY, url text UNIQUE NOT NULL );

CREATE TABLE emission( id serial PRIMARY KEY, nom text NOT NULL, url_page text NOT NULL, url_rss text, genre text, producteur text, station_id INTEGER REFERENCES station(id) );

CREATE TABLE episode( id serial PRIMARY KEY, titre text NOT NULL, date_diffusion date, description_lead text, description_full text, id_episode_site int UNIQUE NOT NULL, emission_id INTEGER REFERENCES emission(id) );

CREATE TABLE media( id serial PRIMARY KEY, url_file text NOT NULL, filename_orig text NOT NULL, filename_local text, size integer NOT NULL, date_modif date NOT NULL, md5 text, duration real, episode_id INTEGER REFERENCES episode(id) ); '''