55 lines
1.6 KiB
Markdown
55 lines
1.6 KiB
Markdown
# Scraper des émission de France Musique
|
|
|
|
## Pourquoi
|
|
* Parce que les podcasts n'ont qu'une durée de vie de trois ans (et parfois moins via flux RSS)
|
|
* Les informations complémentaires comme les playlists ou les interprêtes ne sont pas visibles dans le flux RSS
|
|
* Parce qu'à assassiner le service public, certains dirigeants seraient capables de brûler des archives comme ils brûlent déjà des postes par souci de soi disante économie.
|
|
|
|
## À faire/étudier
|
|
* Récupérer les informations de l'émission
|
|
* Importer les informations dans une base de données
|
|
* Mettre à disposition un script pour créer la BDD
|
|
* Automatiser le téléchargement des éléments vers un point donné
|
|
* Récupérer les images illustrant les épisodes
|
|
|
|
|
|
## Tables de la base RFScraper
|
|
'''
|
|
CREATE TABLE station(
|
|
id serial PRIMARY KEY,
|
|
url text UNIQUE NOT NULL
|
|
);
|
|
|
|
CREATE TABLE emission(
|
|
id serial PRIMARY KEY,
|
|
nom text NOT NULL,
|
|
url_page text NOT NULL,
|
|
url_rss text,
|
|
genre text,
|
|
producteur text,
|
|
station_id INTEGER REFERENCES station(id)
|
|
);
|
|
|
|
CREATE TABLE episode(
|
|
id serial PRIMARY KEY,
|
|
titre text NOT NULL,
|
|
date_diffusion date,
|
|
description_lead text,
|
|
description_full text,
|
|
id_episode_site int UNIQUE NOT NULL,
|
|
emission_id INTEGER REFERENCES emission(id)
|
|
);
|
|
|
|
CREATE TABLE media(
|
|
id serial PRIMARY KEY,
|
|
url_file text NOT NULL,
|
|
filename_orig text NOT NULL,
|
|
filename_local text,
|
|
size integer NOT NULL,
|
|
date_modif date NOT NULL,
|
|
md5 text,
|
|
duration real,
|
|
episode_id INTEGER REFERENCES episode(id)
|
|
);
|
|
'''
|