【问题标题】:Scraping news article data and formatting the results in Word抓取新闻文章数据并在 Word 中格式化结果
【发布时间】:2015-01-11 15:54:11
【问题描述】:

对于文章 URL 列表,我需要抓取文章的标题、作者、日期、出版物和正文。然后每篇文章都需要出现在 Word 中,并根据模板进行格式化(粗体标题、斜体 pub、顶部带有超链接的目录等)。

【问题讨论】:

  • 那么到目前为止你尝试过什么?
  • 您好。我们鼓励发帖者向我们展示他们迄今为止所做的尝试,部分是为了鼓励他们尝试,部分是为了让我们了解什么特别需要帮助,同时也劝阻那些根本不努力的发帖者。考虑到这一点,如果您可以编辑您拥有的内容,将不胜感激。

标签: python ms-word web-scraping


【解决方案1】:

我过去曾使用过其中的一些,我会向您推荐两件事来清理 HTML 代码并获取文本:

(注意正则表达式,在某些情况下可能会丢失一些数据或一些字符串)

对于 Word,我会推荐这个:

PS:这只是一份简历。如果你只使用 SO 搜索器,你会得到很多结果。

【讨论】:

    猜你喜欢
    • 2018-04-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-11-19
    • 2022-08-10
    • 1970-01-01
    • 2020-08-16
    相关资源
    最近更新 更多