【问题标题】:Python: Parsing complex text file by delimiterPython:通过分隔符解析复杂的文本文件
【发布时间】:2018-08-07 19:04:17
【问题描述】:

我对 Python 很陌生,通常习惯于 Java。我目前正在尝试解析 Praat 输出的文本文件,该文件始终采用相同的格式,通常看起来像这样,还有一些功能:

-- Voice report for 53. Sound T1_1001501_vowels --
Date: Tue Aug  7 12:15:41 2018

Time range of SELECTION
    From 0 to 0.696562 seconds (duration: 0.696562 seconds)
Pitch:
   Median pitch: 212.598 Hz
   Mean pitch: 211.571 Hz
   Standard deviation: 23.891 Hz
   Minimum pitch: 171.685 Hz
   Maximum pitch: 265.678 Hz
Pulses:
   Number of pulses: 126
   Number of periods: 113
   Mean period: 4.751119E-3 seconds
   Standard deviation of period: 0.539182E-3 seconds
Voicing:
   Fraction of locally unvoiced frames: 5.970%   (12 / 201)
   Number of voice breaks: 1
   Degree of voice breaks: 2.692%   (0.018751 seconds / 0.696562 seconds)

我想输出如下所示的内容:

0.696562,212.598,211.571,23.891,171.685,265.678,126,113,4.751119E-3,0.539182E-3,5.970,1,2.692

所以本质上我想从每行打印出冒号和后面的空格之间的数字字符串,用逗号分隔。我知道这可能是一个愚蠢的问题,但我无法用 Python 解决它;任何帮助将非常感激!

【问题讨论】:

  • 你能包括你到目前为止尝试过的东西吗?

标签: python parsing text-parsing string-parsing praat


【解决方案1】:

好的,这很简单,您需要稍作调整才能为您工作。

import re
with open("file.txt", "r") as f:
  lines = [s.strip() for s in f.readlines()]
  numbers_list = []
  for _ in lines : 
    numbers_list.append(re.findall(r'\d+', _))
  print(numbers_list)

file.txt 是你的文件。

【讨论】:

  • 我认为剥离的问题在于,在某些情况下,字符串中有我不想包含的数字,例如我不希望括号之间的数字在发声下,但我愿意希望将某些数字的科学记数法中的“E”包括在内。这就是为什么我一直在尝试专门获取“:”和它后面的空格之间的子字符串。
  • 您可以在检查整数或 if 语句之前执行另一个正则表达式来检查天气,例如“:”在字符串中。正如我所说,这将为您提供所有数字,然后由您决定如何调整它
【解决方案2】:

也许:

for line in text.splitlines():
         line=line.strip()
         head,sepa,tail=line.partition(":")
         if sepa:
             parts=tail.split(maxsplit=1)
             if parts and all( ch.isdigit() or ch in ".eE%-+" for ch in parts[0]):
                 num=parts[0].replace("%"," ")
                 try:
                     print(float(num.strip()))
                 except ValueError:
                     print("invalid number:",num)

输出:

0.696562
212.598
211.571
23.891
171.685
265.678
126.0
113.0
0.004751119
0.000539182
5.97
1.0
2.692

【讨论】:

  • @ling-analysis 对于 python 新手来说,有两个结构需要学习:1)我在 all() 中使用过的生成器理解; 2) try...except 子句。 (我必须将 'except' 更改为“except ValueError”)
【解决方案3】:

感谢大家的帮助!我实际上想出了这个解决方案:

import csv

input = 't2_5.txt'
input_name = input[:-4]

def parse(filepath):
data = []
with open(filepath, 'r') as file:
    file.readline()
    file.readline()
    file.readline()
    for line in file:
        if line[0] == ' ':
            start = line.find(':') + 2
            end = line.find(' ', start)
            if line[end - 1] == '%':
                end -= 1
            number = line[start:end]
            data.append(number)
with open(input_name + '_output.csv', 'wb') as csvfile:
    wr = csv.writer(csvfile)
    wr.writerow(data)

parse(input)

【讨论】:

    猜你喜欢
    • 2019-07-01
    • 1970-01-01
    • 1970-01-01
    • 2010-10-03
    • 1970-01-01
    • 1970-01-01
    • 2020-06-28
    • 2011-12-20
    相关资源
    最近更新 更多