FMScraper/README.md

54 lines
1.8 KiB
Markdown
Raw Normal View History

2019-11-29 00:38:15 +00:00
# Scraper des émission de France Musique
## Pourquoi
* Parce que les podcasts n'ont qu'une durée de vie de trois ans (et parfois moins via flux RSS)
* Les informations complémentaires comme les playlists ou les interprêtes ne sont pas visibles dans le flux RSS
* Parce qu'à assassiner le service public, certains dirigeants seraient capables de brûler des archives comme ils brûlent déjà des postes par souci de soi disante économie.
## À faire/étudier
* Récupérer les informations de l'émission
* Importer les informations dans une base de données
* Mettre à disposition un script pour créer la BDD
* Automatiser le téléchargement des éléments vers un point donné
* Récupérer les images illustrant les épisodes
2019-12-01 22:42:18 +00:00
## Tables de la base RFScraper
CREATE TABLE station(
id serial PRIMARY KEY,
nom text UNIQUE NOT NULL,
2019-12-01 22:42:18 +00:00
url text UNIQUE NOT NULL
);
CREATE TABLE emission(
id serial PRIMARY KEY,
nom text NOT NULL,
url_page text NOT NULL,
url_rss text,
genre text,
producteur text,
station_id INTEGER REFERENCES station(id)
);
CREATE TABLE episode(
id serial PRIMARY KEY,
titre text NOT NULL,
date_diffusion date,
description_lead text,
description_full text,
id_episode_site int UNIQUE NOT NULL,
emission_id INTEGER REFERENCES emission(id)
);
CREATE TABLE media(
id serial PRIMARY KEY,
url_file text NOT NULL,
filename_orig text NOT NULL,
filename_local text,
size integer NOT NULL,
date_modif timestamp,
2019-12-01 22:42:18 +00:00
md5 text,
duration real,
episode_id INTEGER REFERENCES episode(id)
);