Scraper des émission de France Musique
Pourquoi
- Parce que les podcasts n'ont qu'une durée de vie de trois ans (et parfois moins via flux RSS)
- Les informations complémentaires comme les playlists ou les interprêtes ne sont pas visibles dans le flux RSS
- Parce qu'à assassiner le service public, certains dirigeants seraient capables de brûler des archives comme ils brûlent déjà des postes par souci de soi disante économie.
À faire/étudier
- Récupérer les informations de l'émission
- Importer les informations dans une base de données
- Mettre à disposition un script pour créer la BDD
- Automatiser le téléchargement des éléments vers un point donné
- Récupérer les images illustrant les épisodes
Tables de la base RFScraper
CREATE TABLE station(
id serial PRIMARY KEY,
nom text UNIQUE NOT NULL,
url text UNIQUE NOT NULL
);
CREATE TABLE emission(
id serial PRIMARY KEY,
nom text NOT NULL,
url_page text NOT NULL,
url_rss text,
genre text,
producteur text,
station_id INTEGER REFERENCES station(id)
);
CREATE TABLE episode(
id serial PRIMARY KEY,
titre text NOT NULL,
date_diffusion date,
description_lead text,
description_full text,
id_episode_site int UNIQUE NOT NULL,
emission_id INTEGER REFERENCES emission(id)
);
CREATE TABLE media(
id serial PRIMARY KEY,
url_file text NOT NULL,
filename_orig text NOT NULL,
filename_local text,
size integer NOT NULL,
date_modif timestamp,
md5 text,
duration real,
episode_id INTEGER REFERENCES episode(id)
);