diff --git a/CinemScraper/spiders/grabVideoData.py b/CinemScraper/spiders/grabVideoData.py index c42884e..cd470b5 100644 --- a/CinemScraper/spiders/grabVideoData.py +++ b/CinemScraper/spiders/grabVideoData.py @@ -15,11 +15,12 @@ class GrabvideodataSpider(scrapy.Spider): def parse_dir_content(self, response): for page in response.css("div#content"): yield { - 'titre' : page.css('h1::text').extract_first(), - 'sous-titre' : page.css('h1 span::text').extract_first(), - 'description' : page.css('.biographies p').extract(), - 'videoSrcUrl' : page.css('iframe::attr(src)').extract_first(), + 'titre' : page.css('h1::text').extract_first().strip(), + 'sous-titre' : page.css('h1 span::text').extract_first(), + 'description' : page.css('.description p').extract(), + 'biographies' : page.css('.biographies p').extract(), + 'videoSrcUrl' : page.css('iframe::attr(src)').re_first(r'\w[\w\.\/]+'), 'articleUrl' : response.url, - 'tags' : page.css('.tag::text').extract() + 'tags' : page.css('.tag::text').re(r'[\n]') }