【发布时间】:2019-11-28 06:00:10
【问题描述】:
我正在尝试使用 python 请求和漂亮的汤从https://www.rtrs.tv/vijesti/index.php 中提取一些信息(最新消息),但遇到了一些问题。我在抓取方面没有太多经验,但我想学习使用请求进行抓取。
这是我目前正在处理的一段代码,我被困在这里:
import requests
from requests import session
from bs4 import BeautifulSoup
link_root = r'https://www.rtrs.tv/vijesti/index.php'
with session() as c:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
r = c.get(link_root, headers=headers)
print r
soup = BeautifulSoup(r.text, 'html.parser')
print soup
我在打印时得到了这个(我只收集了我感兴趣的部分数据): ? ╜╨╖╨░╤à╤é╤ÿ╨╡╨▓╨╛╨┤╨£╨╕╨╗╨╕╤¢╨╡╨▓╨╕╤¢╨░
预计会出现这样的情况:Папа позвао на потпуну забрану нуклеарног оружја (ФОТО/ВИДЕО)
所以我想知道,网站使用西里尔字母是否重要还是有其他问题?
有人知道可能的解决方案吗?
【问题讨论】:
-
可能只是你没有西里尔字体来显示它,或者它的编码与
UTF-8不同,而你的编码不正确。 -
idk 这是否是您正在寻找的。检查我的答案。
-
如果您仍然无法显示输出。您能否告知您使用的是哪个
IDLE!并确认您是否使用windows!如果您以python script.py运行脚本,请告知。 -
也为我运行这个
import sys然后print(sys.stdin.encoding)
标签: python web-scraping beautifulsoup python-requests