scrapy框架中,终端存储的注意事项


scrapy基于终端的持续化存储的, 有些注意事项

基于终端的持续化存储的使用

使用命令:

scrapy crawl spiderName -o filePath

好处: 简洁高效便捷
基于终端的持续化要只能对 parse 方法返回值进行存储.
而且存储的文件, 必须是 json , jsonlines, jl, csv, xml , marshal, pickle 格式的文件.

注意事项

而且 parse 方法返回的值, 必须是字典类型或者列表嵌套字典, 也就是必须返回 json , 如果是 普通的列表类型或者字符串类型,都会报错

import scrapy


class PornhubSpider(scrapy.Spider):
    name = 'pornhub'
    # allowed_domains = ['xxx.com']
    start_urls = ['https://www.csdn.net/?spm=1001.2014.3001.4476']

    def parse(self, response):
        li_list = response.xpath('//ul[@class="nav_center_wrap"]/li')
        content = list()
        dict_data = dict()
        for i in li_list:
            # 把 selector 中的 dataS属性提取
            ele = i.xpath('./a/text()').extract()
            # print(ele)
            # 把列表里的元素转成字符串
            # ele = "".join(ele)
            # print(ele)
            content.append(ele)
        # print(content)
        dict_data["课程"] = content
        # return content # 返回content 会报错
        return dict_data

文章作者: 陌上人如玉
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 陌上人如玉 !
 上一篇
爬取站长之家遇到图片懒加载的解决过程 爬取站长之家遇到图片懒加载的解决过程
现在不少网站对于图片资源进行懒加载, 可以有效限制爬虫.所谓的懒加载, 是当我们打开浏览器, 当界面进入可视化区域之后, 图片资源就会进行请求然后展式出来.所以我们直接对url进行请求是拿不到.对于懒加载的图片, 我们要怎么解决呢?
2020-12-21
下一篇 
爬虫中浏览器无头模式出现的bug和 滑动长条的方法 爬虫中浏览器无头模式出现的bug和 滑动长条的方法
所谓的浏览器无头模式, 就是浏览器的不可视化,不像我们一般情况下使用 selenium, 都会弹出浏览器, 然后在我们的视线下执行我们用代码写好的步骤.无头模式, 除了看不见浏览器,不会有其他的不同, 定位方法, 请求页面的方法等等都是一
2020-12-14
  目录