【发布时间】:2021-04-30 02:10:40
【问题描述】:
我是 python 新手,我正在寻找一种方法来提取现有的开源书籍,这些书籍可以在 gutenberg-de 上找到,例如 this one 我需要使用它们进行进一步的分析和文本挖掘。
我尝试了这段代码,在教程中找到,它提取元数据,但它给我的不是正文内容,而是我需要从中刮取文本的“页面”列表。
import requests
from bs4 import BeautifulSoup
# Make a request
page = requests.get(
"https://www.projekt-gutenberg.org/keller/heinrich/")
soup = BeautifulSoup(page.content, 'html.parser')
# Extract title of page
page_title = soup.title
# Extract body of page
page_body = soup.body
# Extract head of page
page_head = soup.head
# print the result
print(page_title, page_head)
我想我可以用它作为第二步来提取它吗?不过,我不确定如何。
理想情况下,我希望以表格方式存储它们,并能够将它们保存为 csv,保留元数据作者、标题、年份和章节。有什么想法吗?
【问题讨论】:
-
不用说无所不在的事实,没有免费的午餐!。到目前为止,您尝试了哪些方法,哪些有效,哪些无效?
-
谢谢,当然。我认为在这种情况下它不会有任何帮助,但是现在,我已经更新了问题:)
标签: python web-scraping beautifulsoup project-gutenberg