1.6 KiB
1.6 KiB
Scraper des émission de France Musique
Pourquoi
- Parce que les podcasts n'ont qu'une durée de vie de trois ans (et parfois moins via flux RSS)
- Les informations complémentaires comme les playlists ou les interprêtes ne sont pas visibles dans le flux RSS
- Parce qu'à assassiner le service public, certains dirigeants seraient capables de brûler des archives comme ils brûlent déjà des postes par souci de soi disante économie.
À faire/étudier
- Récupérer les informations de l'émission
- Importer les informations dans une base de données
- Mettre à disposition un script pour créer la BDD
- Automatiser le téléchargement des éléments vers un point donné
- Récupérer les images illustrant les épisodes
Tables de la base RFScraper
''' CREATE TABLE station( id serial PRIMARY KEY, url text UNIQUE NOT NULL );
CREATE TABLE emission( id serial PRIMARY KEY, nom text NOT NULL, url_page text NOT NULL, url_rss text, genre text, producteur text, station_id INTEGER REFERENCES station(id) );
CREATE TABLE episode( id serial PRIMARY KEY, titre text NOT NULL, date_diffusion date, description_lead text, description_full text, id_episode_site int UNIQUE NOT NULL, emission_id INTEGER REFERENCES emission(id) );
CREATE TABLE media( id serial PRIMARY KEY, url_file text NOT NULL, filename_orig text NOT NULL, filename_local text, size integer NOT NULL, date_modif date NOT NULL, md5 text, duration real, episode_id INTEGER REFERENCES episode(id) ); '''