Beautifulsoup - 提交表单数据答案

【问题标题】：Beautifulsoup - Submit form dataBeautifulsoup - 提交表单数据
【发布时间】：2019-08-15 22:23:42
【问题描述】：

我正在尝试使用 BeautifulSoup 以编程方式从网站下载（打开）数据。

该网站使用 php 表单，您需要在其中提交输入数据，然后在此表单中明显输出结果链接。

我的做法如下

第 1 步：通过请求发布表单数据

第 2 步：通过 BeautifulSoup 解析生成的链接

但是，这似乎不起作用/我做错了，因为 post 方法似乎不起作用，并且步骤 2 甚至不可能，因为没有可用的结果。

这是我的代码：

from bs4 import BeautifulSoup
import requests

def get_text_link(soup):
    'Returns list of links to individual legal texts'
    ergebnisse = soup.findAll(attrs={"class":"einErgebnis"})
    if ergebnisse:
        links = [el.find("a",href=True).get("href") for el in ergebnisse]
    else:
        links = []
    return links

url = "https://www.justiz.nrw.de/BS/nrwe2/index.php#solrNrwe"

# Post specific day to get one day of data
params ={'von':'01.01.2018', 
     'bis': '31.12.2018',
     "absenden":"Suchen"} 
response = requests.post(url,data=params)
content = response.content
soup = BeautifulSoup(content,"lxml")

resultlinks_to_parse = get_text_link(soup) # is always an empty list
# proceed from here....

谁能告诉我我做错了什么。我对请求帖子不是很熟悉。 “bis”的表单域，例如如下所示：

<input id="bis" type="text" name="bis" size="10" value="">

如果我的方法有缺陷，我会感谢任何有关如何处理此类网站的提示。

谢谢！

【问题讨论】：

乍一看，您的字典不包含逗号 (',') 用于分隔 'bis' 键。我怀疑这能解决你的问题，但显然你需要先解决这个问题。
这实际上只在这篇文章中。在我的代码中。所以，是的，你是对的，我需要改变（在这里）但它不能解决我的问题。不过感谢您的提示！

标签： python post beautifulsoup request

【解决方案1】：

我发现您的请求中有什么问题。

我的调查提供了以下参数：

gerichtst:
yp:
gerichtsbarkeit:
gerichtsort:
entscheidungsart:
date:
von:    01.01.2018
bis:    31.12.2018
validFrom:
von2:
bis2:
aktenzeichen:
schlagwoerter:
q:
method: stem
qSize:  10
sortieren_nach: relevanz
absenden: Suchen
advanced_search: true

我认为qsize 参数对于您的POST 请求是必需的因此，您必须通过以下方式替换您的参数：

params = {
        'von':'01.01.2018',
        'bis': '31.12.2018',
        'absenden': 'Suchen',
        'qSize': 10
        }

这样做，这是我打印resultlinks_to_parse时的结果

print(resultlinks_to_parse)

输出：

[
'http://www.justiz.nrw.de/nrwe/lgs/detmold/lg_detmold/j2018/03_S_69_18_Urteil_20181031.html',
'http://www.justiz.nrw.de/nrwe/arbgs/hamm/lag_hamm/j2018/10_Sa_1122_17_Urteil_20180126.html',
'http://www.justiz.nrw.de/nrwe/arbgs/hamm/lag_hamm/j2018/13_TaBV_10_18_Beschluss_20181123.html',
'http://www.justiz.nrw.de/nrwe/arbgs/hamm/lag_hamm/j2018/10_Sa_1810_17_Urteil_20180629.html',
'http://www.justiz.nrw.de/nrwe/arbgs/hamm/lag_hamm/j2018/10_Sa_1811_17_Urteil_20180629.html',
'http://www.justiz.nrw.de/nrwe/arbgs/hamm/lag_hamm/j2018/11_Sa_1196_17_Urteil_20180118.html',
'http://www.justiz.nrw.de/nrwe/arbgs/hamm/lag_hamm/j2018/11_Sa_1775_17_Urteil_20180614.html',
'http://www.justiz.nrw.de/nrwe/arbgs/hamm/lag_hamm/j2018/11_SaGa_9_18_Urteil_20180712.html',
'http://www.justiz.nrw.de/nrwe/arbgs/hamm/lag_hamm/j2018/12_Sa_748_18_Urteil_20181009.html',
'http://www.justiz.nrw.de/nrwe/arbgs/hamm/lag_hamm/j2018/12_Sa_755_18_Urteil_20181106.html'
]

【讨论】：

是的！这是有效的。非常感谢你的帮助！您是如何找到可用参数的。我正在努力调查这类事情。然后总是在黑盒上操作......
@FredMaster 欢迎您。为了显示参数，我刚刚在我的 Web 浏览器 (Firefox) 的开发者控制台中打开了“网络”选项卡。然后我点击右侧的 POST 请求并选择在详细请求部分（右侧）显示“参数”选项卡