# Scraper des émission de France Musique ## Pourquoi * Parce que les podcasts n'ont qu'une durée de vie de trois ans (et parfois moins via flux RSS) * Les informations complémentaires comme les playlists ou les interprêtes ne sont pas visibles dans le flux RSS * Parce qu'à assassiner le service public, certains dirigeants seraient capables de brûler des archives comme ils brûlent déjà des postes par souci de soi disante économie. ## À faire/étudier * Récupérer les informations de l'émission * Importer les informations dans une base de données * Mettre à disposition un script pour créer la BDD * Automatiser le téléchargement des éléments vers un point donné * Récupérer les images illustrant les épisodes ## Tables de la base RFScraper CREATE TABLE station( id serial PRIMARY KEY, nom text UNIQUE NOT NULL, url text UNIQUE NOT NULL ); CREATE TABLE emission( id serial PRIMARY KEY, nom text NOT NULL, url_page text NOT NULL, url_rss text, genre text, producteur text, station_id INTEGER REFERENCES station(id) ); CREATE TABLE episode( id serial PRIMARY KEY, titre text NOT NULL, date_diffusion date, description_lead text, description_full text, id_episode_site int UNIQUE NOT NULL, emission_id INTEGER REFERENCES emission(id) ); CREATE TABLE media( id serial PRIMARY KEY, url_file text NOT NULL, filename_orig text NOT NULL, filename_local text, size integer NOT NULL, date_modif date NOT NULL, md5 text, duration real, episode_id INTEGER REFERENCES episode(id) );