【问题标题】:I want to extract a certain paragraph from a text type website using for loop我想使用 for 循环从文本类型网站中提取某个段落
【发布时间】:2019-08-06 11:36:09
【问题描述】:

网站 = https://www.sec.gov/Archives/edgar/data/3662/0000950170-98-000413.txt

我想使用for循环从给定的链接中以python的文本格式提取名为“管理层对财务状况和运营结果的讨论和分析”的段落。

【问题讨论】:

标签: python python-3.6 text-extraction


【解决方案1】:

您可以使用 python urllib2 库来执行此操作。

python代码示例:

import urllib2

data = urllib2.urlopen("https://wordpress.org/plugins/about/readme.txt")  # read file
data = data.split("\n") # then split it into lines

for line in data:
    if line = "MANAGEMENT'S DISCUSSION AND ANALYSIS OF FINANCIAL CONDITION AND RESULTS OF OPERATIONS"
    print line # or what you want to do

【讨论】:

  • 我想要整个段落,即此链接中从第 14 页到第 19 页。但采用通用格式
  • .txt 文件中的页面是如何分隔的?必须有分隔符
猜你喜欢
  • 2017-07-17
  • 2019-04-11
  • 2019-08-14
  • 2020-10-18
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-09-04
  • 2020-10-31
相关资源
最近更新 更多