为 XML 输出序列化 Scrapy 项答案

【问题标题】：Serialize a Scrapy Item for XML output为 XML 输出序列化 Scrapy 项
【发布时间】：2017-09-22 19:03:14
【问题描述】：

我是scrapy的新手，我正在寻找一种方法来序列化我的Scrapy Item，以便能够将属性添加到我的XML输出中，让它看起来像这样：

<field name='example'> i have some data scraped here </field>

例如，我正在尝试寻找一种添加“名称”属性的方法。我知道可以通过覆盖 XmlItemExporter 类中的 export_item() 方法来实现，但到目前为止我还没有运气。到目前为止，我的 XmlExportPipeline 看起来像这样：

from scrapy.exporters import XmlItemExporter

class XmlExportPipeline(object):

def open_spider(self, spider):
    self.file = open('%s_products.xml' % spider.name, 'w+b')
    self.exporter = XmlItemExporter(self.file, item_element='field', root_element='items')
    self.exporter.start_exporting()

def close_spider(self, spider):
    self.exporter.finish_exporting()
    self.file.close()

def process_item(self, item, spider):
    self.exporter.export_item(item)
    return item

此外，到目前为止，我的所有数据都是项目的不同字段，但理想情况下，我会将其中一些字段作为其他字段的属性。

【问题讨论】：

标签： python xml scrapy xml-serialization

【解决方案1】：

您只需要更改XMLItemExporter 并创建您的自定义。在您的项目中创建exporters.py 并添加以下代码

import six
from scrapy.exporters import XmlItemExporter
from scrapy.utils.python import is_listlike

class MyXmlExportPipeline(XmlItemExporter):
    def _export_xml_field(self, name, serialized_value, depth):
        self._beautify_indent(depth=depth)
        self.xg.startElement("field", {"name": name})
        if hasattr(serialized_value, 'items'):
            self._beautify_newline()
            for subname, value in serialized_value.items():
                self._export_xml_field(subname, value, depth=depth+1)
            self._beautify_indent(depth=depth)
        elif is_listlike(serialized_value):
            self._beautify_newline()
            for value in serialized_value:
                self._export_xml_field('value', value, depth=depth+1)
            self._beautify_indent(depth=depth)
        elif isinstance(serialized_value, six.text_type):
            self._xg_characters(serialized_value)
        else:
            self._xg_characters(str(serialized_value))
        self.xg.endElement("field")
        self._beautify_newline()

我所做的仅有的两个改变是改变

self.xg.startElement(name, {})
....
self.xg.endElement(name)

从原始导出到

self.xg.startElement("field", {"name" :name})
....
self.xg.endElement("field")

然后更新您的settings.py 并添加

FEED_EXPORTERS = {
    'xml': 'so.exporters.MyXmlExportPipeline'
}

然后我创建了一个简单的刮板来测试输出

class XMLExport(Spider):
    name = "xml"

    start_urls = ["http://www.tarunlalwani.com"]

    def parse(self, response):
        yield {"first_name": "tarun", "last_name": "lalwani"}

    pass

并使用scrapy crawl xml -o test.xml 对其进行测试，输出 XML 文件为

<?xml version="1.0" encoding="utf-8"?>
<items>
<item><field name="first_name">tarun</field><field name="last_name">lalwani</field></item>
</items>

【讨论】：