【问题标题】:How to scrape twitter user followers using Beautifulsoup and Requests in python?如何在 python 中使用 Beautifulsoup 和 Requests 抓取 Twitter 用户关注者?
【发布时间】:2018-07-02 14:45:45
【问题描述】:

我正在尝试搜索名人的推特粉丝。但我无法获得所需的数据。我无法使用请求登录 Twitter。我已经尝试了一些代码。

    import requests
from bs4 import BeautifulSoup

 payload={   "session[username_or_email]":"**********@gmail.com",
"session[password]":"****************",
"authenticity_token":"************",
"ui_metrics":'{"rf":{"a78f48eaa010bb984c59cd3a407b880cb4567ac8a19754298475d1b69af8f825":-40,"ae42c829ba1baf0e72bad0350609e797ad3e34cd4ca71d5d7d996e4f37b0583a":222,"a93a62f3ecdad0b170abe01c18bd28a4e93aa819f1fffa0680f52dafd2bd0c27":-138,"a03b033ba773faf2e2f3e2befad0612296aeb8ffc2cc5b2b35b99f855698f07a":-81},"s":"d9bgNWsxqGpvE1MK7WoIaZDYdF24drlt-5xdktyALQ1mGMpcrwQSoAmrhlE20PQsyUSJRC9Y82EWey-gmkrbH_0s2qInOWRnwto8Fih-VMbwGMr-RfbhXrM3zXDzEJmXV16JPzR4vKaA664j4MTIYgiqBxH5EXhheBjBIFIMzZIMAjyiltBLn27m6ZuCUSuO0o50Kj5X9Npu-3PqVyFUoTEuaFsiZm73XZoDuKhwFnbj65MLrwuGGkjD2mJaTfqAkL1Ecdm7tp84A22GDXH8RYtzTGehoqdUeqaDDq6g2DOU72kGpPBgpmWE-d-5HCEfxFRXO-rircZCwlN9_d53QAAAAWEmNWDl"}',
"scribe_log":"",
"redirect_after_login":"",
"authenticity_token":"**************",
"remember_me":"1"}

res = requests.get("https://twitter.com/login",data=payload)
soup = BeautifulSoup(res.text,"lxml")
print(soup.prettify())
for item in soup.find_all(class_="title"):
    print(item.text)

如何使这段代码工作?请帮我解决一下这个。 注意:我不想使用 API。请帮我解决这个问题。

更新: 我已经修改了有效负载部分,当我执行它时,我得到空结果。当我调试它时,调试器会立即终止。

【问题讨论】:

    标签: python session twitter beautifulsoup request


    【解决方案1】:

    检查您的网络选项卡、控制台或日志以了解 HTTP 响应状态并发布。

    更好的是,使用调试器遍历代码并检查响应对象中的代码和/或消息。

    在此处发布以获取更多帮助。

    如果您不想使用 REST API,您的挑战将是模拟来自脚本的浏览器请求。介意分享一下您不想使用 REST API 的原因吗?

    祝你好运。

    更新以响应 OP 评论:

    立即终止是什么意思?在代码的第一行设置断点并逐行执行。响应码是什么? 200? 400? 300?梳理调试器中的响应对象以获取线索。 REST API 已记录在案,因此如果您需要指导,这将是一个很好的起点,同时保持比完整的 SDK 更大的灵活性。

    您从哪里获得这些请求参数?是什么让您认为他们会产生预期的反应?

    【讨论】:

    • 嗨!我已经稍微更改了代码。当我尝试运行它时,我得到空结果。请帮忙。我只是想尝试不使用 API。
    • 我已经通过在有效载荷行放置一个断点来完成调试。当我启动调试过程时,它正在终止而不给出任何响应。我从“检查”中网络部分的表单数据中获取了参数
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-03-23
    • 1970-01-01
    • 1970-01-01
    • 2020-04-22
    • 1970-01-01
    • 2022-01-16
    • 1970-01-01
    相关资源
    最近更新 更多