Spider fonctionnelle pour émissions

Script spécifique au site de France Musique
2020-01-28 00:51:39 +01:00 · 2020-01-28 00:51:39 +01:00 · 20f0f0d3be
parent ad75bd9d8d
commit 20f0f0d3be
1 changed files with 33 additions and 0 deletions
--- a/FMScraper/spiders/get_emissions.py
+++ b/FMScraper/spiders/get_emissions.py
@ -0,0 +1,33 @@
 # -*- coding: utf-8 -*-
 import scrapy
 from scrapy.loader import ItemLoader
 from FMScraper.items import show_Item
 class GetEmissionsSpider(scrapy.Spider):
    name = 'get_emissions'
    allowed_domains = ['francemusique.fr']
    start_urls = ['http://francemusique.fr/emissions']
    def parse(self, response):
        for sel in response.xpath('//h2[@class="emission-title"]/a/@href'):
            url_emission = response.urljoin(sel.extract())
            yield scrapy.Request(url_emission, callback = self.parse_emission)
    def parse_emission(self, response):
        page_emission = scrapy.Selector(response)
        nom_emission = page_emission.xpath('//h1[@class="cover-emission-content-link-title"]/text()').extract_first()
        url_emission = response.url
        url_rss = page_emission.xpath('//div[@class="podcast-container rss"]/a/@href').extract_first()
        genre = page_emission.xpath('//span[@class="cover-emission-content-information-wrapper-more-genre"]/text()').extract_first()
        producteurs = page_emission.xpath('//div[@class="cover-emission-content-information-wrapper-producers"]/a/@title').extract()
        yield { 'url_emission' : url_emission,
                'nom_emission' : nom_emission,
                'url_rss' : url_rss,
                'genre_emission' : genre,
                'producteurs_emission' : producteurs
                }