【问题标题】:I am trying to extract a specific column from a html table using pandas我正在尝试使用 pandas 从 html 表中提取特定列
【发布时间】:2020-02-04 17:32:32
【问题描述】:
import quandl
import pandas as pd
fiddy_states = pd.read_html('https://www.infoplease.com/us/postal-information/state-abbreviations-and-state-postal-codes')
print(fiddy_states[0][0])

我收到一个我无法理解的错误。因为我是新手,所以我找不到解决方案。 我只想要 url 表中的邮政编码列。

【问题讨论】:

  • 那么你得到的错误是什么?
  • 这是错误的第 1 部分 - Traceback(最近一次调用最后一次):文件“C:\Users\MOCHI\AppData\Local\Programs\Python\Python37-32\lib\site-packages \pandas\core\indexes\base.py",第 2897 行,在 get_loc 中返回 self._engine.get_loc(key) 文件 "pandas_libs\index.pyx",第 107 行,在 pandas._libs.index.IndexEngine.get_loc 文件中" pandas_libs\hashtable_class_helper.pxi”,第 1607 行,在 pandas._libs.hashtable.PyObjectHashTable.get_item 文件“pandas_libs\hashtable_class_helper.pxi”,第 1614 行,在 pandas._libs.hashtable.PyObjectHashTable.get_item KeyError: 0
  • 文件“pandas_libs\index.pyx”,第 107 行,在 pandas._libs.index.IndexEngine.get_loc 文件“pandas_libs\index.pyx”,第 131 行,在 pandas._libs.index.IndexEngine .get_loc 文件“pandas_libs\hashtable_class_helper.pxi”,第 1607 行,在 pandas._libs.hashtable.PyObjectHashTable.get_item 文件“pandas_libs\hashtable_class_helper.pxi”,第 1614 行,在 pandas._libs.hashtable.PyObjectHashTable.get_item KeyError: 0
  • 将错误信息放在您的帖子中以获得更多关注,而不是在评论部分。

标签: python html pandas dataframe


【解决方案1】:

您提供的链接有两个表格 - 因此有两个相应的数据框。

您可以通过以下方式获得它们:

import quandl
import pandas as pd
fiddy_states = pd.read_html('https://www.infoplease.com/us/postal-information/state-abbreviations-and-state-postal-codes')
# First Table
fiddy_states[0]['Postal Code']
# Second Table
fiddy_states[1]['Postal Code']

【讨论】:

    【解决方案2】:

    尝试任何 Web Scraping 工具,例如漂亮的汤或 selenium。问题本身还不清楚!告诉我你为什么在 HTML 页面上使用 pandas。 如果您想从网页中提取一个列,here 是一个已经可用的解决方案。

    【讨论】:

    • 我正在上数据分析的在线课程。该课程使用熊猫,我被困在这一点上。为了遵循课程,我只能在熊猫中解决这个问题。课程讲师能够使用 fiddy_states[][] 表示法提取特定列。在这种情况下我遇到了错误。
    • 确保您的系统中安装了所需的目录
    猜你喜欢
    • 1970-01-01
    • 2021-12-29
    • 1970-01-01
    • 2014-05-30
    • 1970-01-01
    • 2017-03-11
    • 2020-09-13
    • 2021-11-10
    • 1970-01-01
    相关资源
    最近更新 更多