【发布时间】:2020-09-03 12:33:54
【问题描述】:
我收到此错误: InvalidSchema("没有为 {!r} 找到连接适配器".format(url))
当我尝试运行这段代码时:
import pandas as pd
pd.set_option('display.max_colwidth', -1)
url_file = 'https://github.com/MarissaFosse/ryersoncapstone/raw/master/DailyNewsArticles.xlsx'
tstar_articles = pd.read_excel(url_file, "TorontoStar Articles", header=0)
url_to_sents = {}
for url in tstar_articles:
url = tstar_articles['URL']
page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
results = soup.find(class_='c-article-body__content')
results_text = [tag.get_text().strip() for tag in results]
sentence_list = [sentence for sentence in results_text if not '\n' in sentence]
sentence_list = [sentence for sentence in sentence_list if '.' in sentence]
article = ' '.join(sentence_list)
url_to_sents[url] = article
我正在尝试使用 requests() 从我创建的 Excel 文件中读取 URL。我怀疑这是由于看不见的字符,但不知道如何检查。
【问题讨论】:
-
不要从堆栈跟踪中粘贴创建异常的代码行,而是向我们提供异常本身的文本。 (包括整个堆栈跟踪通常也是很好的做法)。
标签: python pandas url beautifulsoup python-requests