Récupération des podcasts de France Musique
Go to file
Yohann Dedy 951e4da065 README.md : Ajout modèle BDD 2019-12-02 00:35:35 +01:00
FMScraper Nettoyage url fichier 2019-12-01 22:01:20 +01:00
README.md README.md : Ajout modèle BDD 2019-12-02 00:35:35 +01:00
scrapy.cfg first commit 2019-11-26 22:02:40 +01:00

README.md

Scraper des émission de France Musique

Pourquoi

  • Parce que les podcasts n'ont qu'une durée de vie de trois ans (et parfois moins via flux RSS)
  • Les informations complémentaires comme les playlists ou les interprêtes ne sont pas visibles dans le flux RSS
  • Parce qu'à assassiner le service public, certains dirigeants seraient capables de brûler des archives comme ils brûlent déjà des postes par souci de soi disante économie.

À faire/étudier

  • Récupérer les informations de l'émission
  • Importer les informations dans une base de données
  • Mettre à disposition un script pour créer la BDD
  • Automatiser le téléchargement des éléments vers un point donné
  • Récupérer les images illustrant les épisodes

Tables de la base RFScraper

 CREATE TABLE station(
     id serial PRIMARY KEY,
     url text UNIQUE NOT NULL
     );
 
 CREATE TABLE emission(
     id serial PRIMARY KEY,
     nom text NOT NULL,
     url_page text NOT NULL,
     url_rss text,
     genre text,
     producteur text,
     station_id INTEGER REFERENCES station(id)
     );
 
 CREATE TABLE episode(
     id serial PRIMARY KEY,
     titre text NOT NULL,
     date_diffusion date,
     description_lead text,
     description_full text,
     id_episode_site int UNIQUE NOT NULL,
     emission_id INTEGER REFERENCES emission(id)
     );
 
 CREATE TABLE media(
     id serial PRIMARY KEY,
     url_file text NOT NULL,
     filename_orig text NOT NULL,
     filename_local text,
     size integer NOT NULL,
     date_modif date NOT NULL,
  md5 text,
  duration real,
  episode_id INTEGER REFERENCES episode(id)
  );