CFVideoScraper/CinemScraper/spiders/grabVideoData.py

# -*- coding: utf-8 -*-
import scrapy
import re
from scrapy.loader import ItemLoader
from scrapy.loader.processors import Join, MapCompose, TakeFirst
from w3lib.html import remove_tags

from CinemScraper.items import video

class GrabvideodataSpider(scrapy.Spider):
    name = 'grabVideoData'
    allowed_domains = ['cinematheque.fr']
    start_urls = ['http://www.cinematheque.fr/decouvrir.html']

    item_fields = {
        'title'             : '//h1/text()',
        'secondary_title'   : '//h1/span[@class="sub"]/text()',
        'date_event'        : '//p[@class="date"]/text()',
        'urlVideo'          : '//iframe/@src',
        'description'       : '//div[@class="description"]/p',
        'biographies'       : '//div[@class="biographies"]/p',
        'tags'              : '//span[contains(@class, "tag")]/text()'
        }

    content_xpath = '//div[@id="content"]'

    def parse(self, response):
        for lien in response.xpath('//a/@href[contains(.,"video")]/../..'):
            url = response.urljoin(lien.css('a::attr(href)').extract_first())
            yield scrapy.Request(url, callback = self.parse_dir_content)

    def parse_dir_content(self, response):
        hxs = scrapy.Selector(response)

        for page in hxs.xpath(self.content_xpath):
            loader = ItemLoader(item=video(), selector=page)
            # mettre des processeurs d'entrée ici
#            loader.default_input_processor = MapCompose(remove_tags)
            loader.default_output_processor = Join()

            # iteration des champs de l'item video
            for field, xpath in self.item_fields.items():
                loader.add_xpath(field, xpath)
            loader.add_value('urlCF', response.url)
            extract_vid_id = re.compile(r'/(\d+).html')
            loader.add_value('id_video', extract_vid_id.findall(response.url)[0])
            yield loader.load_item()
Premier commit 2018-05-10 17:31:59 +00:00			`# -- coding: utf-8 --`
			`import scrapy`
Ajout du champ id_video 2019-08-28 01:24:20 +00:00			`import re`
Mise en place et utilisation de l'item "vidéo" 2019-01-27 20:39:33 +00:00			`from scrapy.loader import ItemLoader`
Mise en place des processeur input/output (urlVideo, titre, date) L'URL de la vidéo embedée a été raccourcie de manière à ne pas intégrer les options de hauteur/largeur. Le titre est nettoyé pour ne pas avoir d'espace vide avant et après le texte. Les retours à la ligne sont aussi supprimés lors du scraping. La date est traduite au format J-MM-AAAA en attendant d'être entièrement compatible avec le format datetime. 2019-01-28 00:07:58 +00:00			`from scrapy.loader.processors import Join, MapCompose, TakeFirst`
			`from w3lib.html import remove_tags`
Premier commit 2018-05-10 17:31:59 +00:00
Mise en place et utilisation de l'item "vidéo" 2019-01-27 20:39:33 +00:00			`from CinemScraper.items import video`
Premier commit 2018-05-10 17:31:59 +00:00
			`class GrabvideodataSpider(scrapy.Spider):`
			`name = 'grabVideoData'`
Scraping des liens et récupération des informations dans le même spider 2018-05-11 23:21:56 +00:00			`allowed_domains = ['cinematheque.fr']`
			`start_urls = ['http://www.cinematheque.fr/decouvrir.html']`
Premier commit 2018-05-10 17:31:59 +00:00
Mise en place et utilisation de l'item "vidéo" 2019-01-27 20:39:33 +00:00			`item_fields = {`
Mise en place des processeur input/output (urlVideo, titre, date) L'URL de la vidéo embedée a été raccourcie de manière à ne pas intégrer les options de hauteur/largeur. Le titre est nettoyé pour ne pas avoir d'espace vide avant et après le texte. Les retours à la ligne sont aussi supprimés lors du scraping. La date est traduite au format J-MM-AAAA en attendant d'être entièrement compatible avec le format datetime. 2019-01-28 00:07:58 +00:00			`'title' : '//h1/text()',`
			`'secondary_title' : '//h1/span[@class="sub"]/text()',`
			`'date_event' : '//p[@class="date"]/text()',`
			`'urlVideo' : '//iframe/@src',`
			`'description' : '//div[@class="description"]/p',`
Ajout du champ id_video 2019-08-28 01:24:20 +00:00			`'biographies' : '//div[@class="biographies"]/p',`
Mise en place des processeur input/output (urlVideo, titre, date) L'URL de la vidéo embedée a été raccourcie de manière à ne pas intégrer les options de hauteur/largeur. Le titre est nettoyé pour ne pas avoir d'espace vide avant et après le texte. Les retours à la ligne sont aussi supprimés lors du scraping. La date est traduite au format J-MM-AAAA en attendant d'être entièrement compatible avec le format datetime. 2019-01-28 00:07:58 +00:00			`'tags' : '//span[contains(@class, "tag")]/text()'`
Mise en place et utilisation de l'item "vidéo" 2019-01-27 20:39:33 +00:00			`}`

			`content_xpath = '//div[@id="content"]'`

Premier commit 2018-05-10 17:31:59 +00:00			`def parse(self, response):`
Scraping des liens et récupération des informations dans le même spider 2018-05-11 23:21:56 +00:00			`for lien in response.xpath('//a/@href[contains(.,"video")]/../..'):`
			`url = response.urljoin(lien.css('a::attr(href)').extract_first())`
			`yield scrapy.Request(url, callback = self.parse_dir_content)`

			`def parse_dir_content(self, response):`
Mise en place et utilisation de l'item "vidéo" 2019-01-27 20:39:33 +00:00			`hxs = scrapy.Selector(response)`

			`for page in hxs.xpath(self.content_xpath):`
			`loader = ItemLoader(item=video(), selector=page)`
			`# mettre des processeurs d'entrée ici`
Mise en place des processeur input/output (urlVideo, titre, date) L'URL de la vidéo embedée a été raccourcie de manière à ne pas intégrer les options de hauteur/largeur. Le titre est nettoyé pour ne pas avoir d'espace vide avant et après le texte. Les retours à la ligne sont aussi supprimés lors du scraping. La date est traduite au format J-MM-AAAA en attendant d'être entièrement compatible avec le format datetime. 2019-01-28 00:07:58 +00:00			`# loader.default_input_processor = MapCompose(remove_tags)`
Mise en place et utilisation de l'item "vidéo" 2019-01-27 20:39:33 +00:00			`loader.default_output_processor = Join()`

			`# iteration des champs de l'item video`
			`for field, xpath in self.item_fields.items():`
			`loader.add_xpath(field, xpath)`
			`loader.add_value('urlCF', response.url)`
Ajout du champ id_video 2019-08-28 01:24:20 +00:00			`extract_vid_id = re.compile(r'/(\d+).html')`
			`loader.add_value('id_video', extract_vid_id.findall(response.url)[0])`
Mise en place et utilisation de l'item "vidéo" 2019-01-27 20:39:33 +00:00			`yield loader.load_item()`

Scraping des liens et récupération des informations dans le même spider 2018-05-11 23:21:56 +00:00