【问题标题】:How to split input text multiple times如何多次拆分输入文本
【发布时间】:2019-11-15 05:06:24
【问题描述】:

我有一个按以下方式构建的输入文件:年份由“-”分隔,学习由“=”分隔,学生及其表现由“\t”分隔。我的目标是解析输入文件以获取数字。当我最终得到数字时,我需要最后两个数字,以百分比表示学生的表现。问题是,当我通过例如连字符分割输入时,我得到一个列表,但我不知道当时该做什么,因为我不能再次剥离它,因为它现在是一个列表。 基本上,它是一个以毫秒为单位的性能时间的长列表,然后是一个以百分比表示的性能,如下所示: Frank Pierre 1398 81. 这是我想从列表中所有不同名称中检索的第二个数字,因为该数字代表百分比。

我已经能够通过使用 for 循环遍历输入文件中的所有项目来检索数字,然后如果它们是整数,则将它们附加到新列表中,但问题是我的解决方案使用了事实最后的所有数字都小于或等于一百(因为它们是百分比)最终将它们从新列表中删除并将它们添加到新的百分比列表中。但是,我希望程序以更通用的方式处理具有相同结构的输入文件。

想象一个具有相同结构的文件,但在某些情况下,学生姓名后的第一个数字低于 100。我的程序会将其识别为百分比,因为它低于 100,但那是不是这样!只有第一个数字之后的第二个数字代表百分比。这就是为什么我认为最好解析输入文件,以便将数字与其他所有内容分开,然后使用例如索引检索第二个数字。我只是不知道如何做到这一点。

如果有人知道如何完成这项工作,那就太好了。代码必须在 python 2.7 中,我不能使用任何外部模块,我必须自己定义函数。我只需要能够获得第二个数字的列表,这样我就可以使用它们对它们进行分析。

我目前有以下代码:

'with open("statistics_input.txt", "r") as input:
    information = input.read()
    splitted = information.split('-')
first = splitted[0]'

问题是我现在最终得到一个包含 6 个不同索引的列表,每年一个,我不知道如何进一步解析它。我首先将第一年作为变量,但是我现在如何检索该年的数字并为每年重复该过程?

【问题讨论】:

    标签: python input text structure


    【解决方案1】:

    到目前为止,您已经弄清楚了打开和读取文件,所以我跳过这部分。假设你的文件内容是在变量text中读取的,这段代码:

    data = {}
    years = text.split('\n-')  # text -- is your source text
    
    for y in years :
        year = y.split('\n') [0]
        subj = y.split('\n') [1:]
    
        data[year] = {}
    
        subject = 'none'
        for s in subj :
            if len(s) < 5 or s[0] == '=' :
                subject = s
                data[year][subject] = []
                continue
            name, result = s.split('\t')
            data[year][subject].append( (name, result) )
    
        print json.dumps( data, indent=4)
    

    给出以下结果:

    {
        "1999": {
            "I": [
                [
                    "Willem Jan van Steen", 
                    "9859 77"
                ], 
                [
                    "Guillaume Kielmann", 
                    "5264 77"
                ], 
                [
                    "Guillaume Bos", 
                    "8200 6"
                ], 
                [
                    "Matty Klop", 
                    "9066 42"
                ], 
                [
                    "Atze Klop", 
                    "3318 45"
                ], 
                [
                    "Sven Kielmann", 
                    "1160 63"
                ], 
                [
                    "Wartie Hijma", 
                    "1904 65"
                ], 
                [
                    "Matty Evers", 
                    "2516 100"
                ], 
                [
                    "Matty Bos", 
                    "2941 99"
                ], 
                [
                    "Pieter van der Ploeg", 
                    "8873 80"
                ], 
                [
                    "Jan Willem van Zeist", 
                    "3934 95"
                ], 
                [
                    "Thilo van Steen", 
                    "9665 61"
                ], 
                [
                    "Wan van Raamsdonk", 
                    "1771 86"
                ], 
                [
                    "Henri Fokkink", 
                    "7484 59"
                ], 
                [
                    "Jan Willem Evers", 
                    "9709 82"
                ]
            ], 
            "=AI": [
                [
                    "Sven Swarttouw", 
                    "2604 73"
                ], 
                [
                    "Eline van Raamsdonk", 
                    "9771 60"
                ], 
                [
                    "Herbert van der Ploeg", 
                    "9325 41"
                ], 
                [
                    "Eline Hijma", 
                    "430 23"
                ], 
                [
                    "Pieter Hijma", 
                    "8203 65"
                ], 
                [
                    "Eline Silvis Cividjian", 
                    "2700 79"
                ]
            ], 
            "=W": [
                [
                    "Guillaume Zeggers", 
                    "290 47"
                ], 
                [
                    "Natalia van Raamsdonk", 
                    "2751 55"
                ], 
                [
                    "Wartie Zeggers", 
                    "3079 92"
                ], 
                [
                    "Atze Swarttouw", 
                    "9474 30"
                ], 
                [
                    "Rene Pierre", 
                    "2125 62"
                ], 
                [
                    "Pieter van Mantgem", 
                    "3023 67"
                ], 
                [
                    "Jan Willem Hijma", 
                    "7441 86"
                ]
            ], 
            "=BWI": [
                [
                    "Rene Zeggers", 
                    "7679 8"
                ], 
                [
                    "Matty van Mantgem", 
                    "7431 44"
                ], 
                [
                    "Sven van Raamsdonk", 
                    "7248 46"
                ], 
                [
                    "Eline Pierre", 
                    "5731 86"
                ], 
                [
                    "Maarten Kielmann", 
                    "7162 59"
                ], 
                [
                    "Atze Zeggers", 
                    "7065 72"
                ], 
                [
                    "Eline van Mantgem", 
                    "830 78"
                ], 
                [
                    "Natalia van Steen", 
                    "6321 49"
                ], 
                [
                    "Frank van Raamsdonk", 
                    "1380 31"
                ], 
                [
                    "Pieter Bos", 
                    "9639 94"
                ], 
                [
                    "Andy Zeggers", 
                    "5232 78"
                ], 
                [
                    "Andy van Raamsdonk", 
                    "1256 69"
                ], 
                [
                    "Eline Gude", 
                    "4101 40"
                ], 
                [
                    "Matty Fokkink", 
                    "9839 89"
                ], 
                [
                    "Natalia Hijma", 
                    "203 11"
                ], 
                [
                    "Henri Bos", 
                    "6728 66"
                ], 
                [
                    "Guillaume van der Ploeg", 
                    "9998 48"
                ], 
                [
                    "Jan Willem van Steen", 
                    "760 79"
                ], 
                [
                    "Matty Pierre", 
                    "337 96"
                ], 
                [
                    "Wan Gude", 
                    "3811 39"
                ]
            ], 
            "=ECTR": [
                [
                    "Frank Swarttouw", 
                    "6484 49"
                ], 
                [
                    "Wan Hijma", 
                    "9845 36"
                ], 
                [
                    "Herbert Silvis Cividjian", 
                    "1544 84"
                ], 
                [
                    "Natalia Kielmann", 
                    "646 21"
                ]
            ]
        }, 
        "2002": {
            "I": [
                [
                    "Eline van Steen", 
                    "7817 11"
                ], 
                [
                    "Andy van Steen", 
                    "9212 51"
                ], 
                [
                    "Frank van Zeist", 
                    "233 27"
                ], 
                [
                    "Rene Swarttouw", 
                    "5695 68"
                ], 
                [
                    "Wan Bos", 
                    "7039 29"
                ], 
                [
                    "Eline van der Ploeg", 
                    "4410 99"
                ], 
                [
                    "Wartie van der Ploeg", 
                    "2526 20"
                ], 
                [
                    "Sven Bos", 
                    "4694 98"
                ], 
                [
                    "Wartie Swarttouw", 
                    "5371 70"
                ], 
                [
                    "Thilo van Zeist", 
                    "10009 77"
                ], 
                [
                    "Guillaume Fokkink", 
                    "4125 86"
                ], 
                [
                    "Atze Bos", 
                    "4227 97"
                ], 
                [
                    "Pieter Silvis Cividjian", 
                    "9491 15"
                ], 
                [
                    "Sven Evers", 
                    "6994 41"
                ]
            ], 
            "=AI": [
                [
                    "Matty van Steen", 
                    "9702 40"
                ], 
                [
                    "Thilo Silvis Cividjian", 
                    "5553 42"
                ], 
                [
                    "Herbert van Raamsdonk", 
                    "6867 90"
                ], 
                [
                    "Wartie Evers", 
                    "2086 81"
                ], 
                [
                    "Jan Willem Bos", 
                    "1566 92"
                ], 
                [
                    "Maarten van Mantgem", 
                    "8960 92"
                ], 
                [
                    "Sven van Zeist", 
                    "8629 74"
                ], 
                [
                    "Matty van Raamsdonk", 
                    "496 41"
                ], 
                [
                    "Willem Jan Evers", 
                    "1853 11"
                ], 
                [
                    "Guillaume van Zeist", 
                    "9729 62"
                ], 
                [
                    "Maarten Klop", 
                    "8653 74"
                ], 
                [
                    "Henri van der Ploeg", 
                    "6755 39"
                ]
            ], 
            "=W": [
                [
                    "Herbert Kielmann", 
                    "2135 99"
                ], 
                [
                    "Andy van Mantgem", 
                    "8033 49"
                ], 
                [
                    "Guillaume Gude", 
                    "5356 52"
                ], 
                [
                    "Herbert Bos", 
                    "1435 47"
                ], 
                [
                    "Pieter Gude", 
                    "9460 36"
                ], 
                [
                    "Jan Willem van der Ploeg", 
                    "8403 25"
                ], 
                [
                    "Wan van Mantgem", 
                    "9672 68"
                ]
            ], 
    

    打印姓名和分数的方法如下:

    for year in data.values() :
        for subject in year.values() :
            for student in subject :
                print student[0], student[1].split()[1]  # only the last number
    

    【讨论】:

    • 代码看起来不错!但是,对于我想要实现的简单目标来说,这可能有点太复杂了。我唯一的目标是在学生姓名旁边取每个最终数字。我认为他在下面发布的 lxop 方法是正确的,但我正在努力实际实施它。我也不允许使用外部模块或方法,例如 json.dump。
    • json.dump 只是为了制作一个漂亮的打印输出。您可以遍历 data 字典并获取 namescore 并根据需要将其打印出来
    • @noobmaster69 看看最后的循环,这应该会打印出您需要的内容。或者您可以根据需要更改它。
    • 我试过你的代码,但我得到 AttributeError: 'tuple' object has no attribute 'split' 我不确定是什么原因造成的。我已经删除了 json 部分。
    • @noobmaster69 添加了缺少的循环 =)
    【解决方案2】:

    有很多不同的方法来做你正在尝试的事情。不过,我有几个建议:

    • '-' 拆分后,如您所说,您有一个列表。但是,该列表中的条目都是字符串,如果您想在一年的记录中拆分为研究,那么您可以取列表中的一个字符串,并将其拆分为'='。这将为您提供另一个列表,但条目也是字符串,可以适当处理。
    • 要获取一行中的最后一个数字,您可以将该行拆分为空格 (' '),然后获取结果列表的最后一个元素。您需要知道这条线是学生(而不是一年或学习标记),但听起来您可能已经弄清楚了。

    【讨论】:

    • 我觉得您没有阅读我回答中的第一个项目符号 - 该列表中的每个元素都是一个字符串,您可以根据自己的喜好拆分每个元素
    • 检查(仔细)你正在拆分正确类型的破折号。有几个看起来非常相似的不同的 - 连字符、em-dash、en-dash 等。另外,根据你的标题,检查你实际上是在调用 split() 而不是 strip()
    • 我刚刚在您的确切输入文件上运行了您的确切代码,我得到了一个包含 6 个项目的列表。上面的代码是复制粘贴还是重写?
    • 只是为了回过头来,当我打印拆分时,我确实有不同的列表,这很难看,因为它们都在一条线上,我很难发现它,我的错。 .但是,我仍然不知道如何实际进一步解析这个。
    • 您知道如何使用循环和访问列表中的各个条目吗?如果是这样,那么可以按照我在答案中建议的那样使用各个列表按研究进行拆分。当你达到个别学生的水平时,按空格分割并取最后一个条目以获得百分比(如上面的答案)
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2013-01-12
    • 1970-01-01
    • 2015-06-22
    • 2013-09-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多