【问题标题】:Extracting extension from filename in Python在 Python 中从文件名中提取扩展名
【发布时间】:2010-10-07 04:24:57
【问题描述】:

是否有从文件名中提取扩展名的功能?

【问题讨论】:

    标签: python filenames file-extension


    【解决方案1】:

    是的。使用os.path.splitext(见Python 2.X documentationPython 3.X documentation):

    >>> import os
    >>> filename, file_extension = os.path.splitext('/path/to/somefile.ext')
    >>> filename
    '/path/to/somefile'
    >>> file_extension
    '.ext'
    

    与大多数手动字符串拆分尝试不同,os.path.splitext 将正确地将 /a/b.c/d 视为没有扩展名而不是具有扩展名 .c/d,它会将 .bashrc 视为没有扩展名而不是具有扩展名 .bashrc

    >>> os.path.splitext('/a/b.c/d')
    ('/a/b.c/d', '')
    >>> os.path.splitext('.bashrc')
    ('.bashrc', '')
    

    【讨论】:

    • basename 的使用在这里有点令人困惑,因为 os.path.basename("/path/to/somefile.ext") 会返回 "somefile.ext"
    • endswith() 不会更便携和更 Python 吗?
    • @klingt.net 好吧,在这种情况下,.asd 真的是扩展名!如果你仔细想想,foo.tar.gz 是一个 gzip 压缩文件 (.gz),它恰好是一个 tar 文件 (.tar)。但它首先是一个 gzip 文件。我根本不希望它返回双重扩展。
    • 标准的 Python 函数命名约定真的很烦人 - 几乎每次我重新查找时,我都会误认为它是 splittext。如果他们只是做任何事情来表示这个名字的各个部分之间的中断,那么识别它是splitExtsplit_ext 会容易得多。我肯定不会是唯一犯这个错误的人吗?
    • @Vingtoft 您在评论中没有提到 werkzeug 的 FileStorage,这个问题与该特定场景无关。您传递文件名的方式可能有问题。 os.path.splitext('somefile.ext') => ('somefile', '.ext')。随意提供一个实际的反例,而不参考某些第三方库。
    【解决方案2】:
    import os.path
    extension = os.path.splitext(filename)[1]
    

    【讨论】:

    • 出于好奇,为什么是import os.path 而不是from os import path
    • 哦,我只是想知道它背后是否有特定的原因(除了惯例)。我还在学习 Python,想了解更多!
    • 这真的取决于,如果您使用from os import path,那么名称path 将在您的本地范围内占用,其他查看代码的人可能不会立即知道路径是来自操作系统的路径模块。就好像您使用 import os.path 一样,它会将其保留在 os 命名空间中,并且无论您在哪里拨打电话,人们都会立即知道它是来自 os 模块的 path()
    • 我知道它在语义上没有任何不同,但我个人认为 _, extension = os.path.splitext(filename) 的结构更好看。
    • 如果您希望扩展作为更复杂表达式的一部分,[1] 可能更有用:if check_for_gzip and os.path.splitext(filename)[1] == '.gz':
    【解决方案3】:

    3.4 版中的新功能。

    import pathlib
    
    print(pathlib.Path('yourPath.example').suffix) # '.example'
    

    我很惊讶还没有人提到pathlibpathlib 太棒了!

    如果您需要所有后缀(例如,如果您有 .tar.gz),.suffixes 将返回它们的列表!

    【讨论】:

    • .tar.gz 获取示例:''.join(pathlib.Path('somedir/file.tar.gz').suffixes)
    • 很好的答案。我发现本教程比文档更有用:zetcode.com/python/pathlib
    • @user3780389 “foo.bar.tar.gz”不是仍然是有效的“.tar.gz”吗?如果是这样,您的 sn-p 应该使用 .suffixes[-2:] 以确保最多只能获取 .tar.gz。
    • 仍有一些情况无法按预期工作,例如"filename with.a dot inside.tar"。这是我目前使用的解决方案:"".join([s for s in pathlib.Path('somedir/file.tar.gz').suffixes if not " " in s])
    • 这应该是公认的答案,因为我们正处于 Python 3 世界中
    【解决方案4】:
    import os.path
    extension = os.path.splitext(filename)[1][1:]
    

    只获取扩展名的文本,不带点。

    【讨论】:

    • 这对于以. 结尾的文件名和没有扩展名的文件名都将返回空。
    【解决方案5】:

    对于简单的用例,一个选项可能是从点拆分:

    >>> filename = "example.jpeg"
    >>> filename.split(".")[-1]
    'jpeg'
    

    文件没有扩展名时不会出错:

    >>> "filename".split(".")[-1]
    'filename'
    

    但你必须小心:

    >>> "png".split(".")[-1]
    'png'    # But file doesn't have an extension
    

    也不适用于 Unix 系统中的隐藏文件:

    >>> ".bashrc".split(".")[-1]
    'bashrc'    # But this is not an extension
    

    一般用途,首选os.path.splitext

    【讨论】:

    • 如果你上传 x.tar.gz 会让人不快
    • 实际上不是。名为“x.tar.gz”的文件的扩展名是“gz”而不是“tar.gz”。 os.path.splitext 也将“.os”作为扩展名。
    • 我们可以使用 [1] 而不是 [-1]。我无法理解 [-1] 的拆分
    • [-1] 获取以点分隔的项目的最后一项。示例:"my.file.name.js".split('.') => ['my','file','name','js]
    • @BenjaminR 好吧,您正在对结果列表进行优化。 ['file', 'tar', 'gz']'file.tar.gz'.split('.') vs ['file.tar', 'gz']'file.tar.gz'.rsplit('.', 1)。是的,可能是。
    【解决方案6】:

    值得在其中添加一个较低的内容,这样您就不会想知道为什么 JPG 没有出现在您的列表中。

    os.path.splitext(filename)[1][1:].strip().lower()
    

    【讨论】:

      【解决方案7】:

      上述任何解决方案都有效,但在 linux 上,我发现扩展字符串末尾有一个换行符,这将阻止匹配成功。将strip() 方法添加到末尾。例如:

      import os.path
      extension = os.path.splitext(filename)[1][1:].strip() 
      

      【讨论】:

      • 为了帮助我理解,请您解释一下第二个索引/切片可以防止哪些其他行为? (即.splittext(filename)[1][1:] 中的[1:]) - 提前感谢您
      • 自己想出来的:splittext()(不像你用'.'分割字符串)包括'.'扩展名中的字符。额外的[1:] 摆脱了它。
      【解决方案8】:

      使用 splitext 时,带有双扩展名的文件会出现问题(例如 file.tar.gzfile.tar.bz2 等)

      >>> fileName, fileExtension = os.path.splitext('/path/to/somefile.tar.gz')
      >>> fileExtension 
      '.gz'
      

      但应该是:.tar.gz

      可能的解决方案是here

      【讨论】:

      • 执行两次以获得 2 个扩展?
      • @maazza 是的。 gunzip somefile.tar.gz 输出文件名是什么?
      • 这就是为什么我们有扩展名 'tgz' 这意味着:tar+gzip ! :D
      • @FlipMcF 文件名显然应该是somefile.tar。对于tar -xzvf somefile.tar.gz,文件名应为somefile
      • @peterhil 我认为您不希望您的 python 脚本知道用于创建文件名的应用程序。这有点超出了问题的范围。不挑例子,'filename.csv.gz'也很有效。
      【解决方案9】:

      你可以在 pathlib 模块中找到一些很棒的东西(在 python 3.x 中可用)。

      import pathlib
      x = pathlib.PurePosixPath("C:\\Path\\To\\File\\myfile.txt").suffix
      print(x)
      
      # Output 
      '.txt'
      

      【讨论】:

      • 使用 PosixPath 作为 windows 路径是错误的。
      【解决方案10】:

      只是join 所有pathlib suffixes

      >>> x = 'file/path/archive.tar.gz'
      >>> y = 'file/path/text.txt'
      >>> ''.join(pathlib.Path(x).suffixes)
      '.tar.gz'
      >>> ''.join(pathlib.Path(y).suffixes)
      '.txt'
      

      【讨论】:

        【解决方案11】:

        虽然这是一个老话题,但我想知道为什么在这种情况下没有提到一个非常简单的python api,称为rpartition:

        要获取给定文件绝对路径的扩展名,您只需键入:

        filepath.rpartition('.')[-1]
        

        示例:

        path = '/home/jersey/remote/data/test.csv'
        print path.rpartition('.')[-1]
        

        会给你:'csv'

        【讨论】:

        • 对于那些不熟悉 API 的人,rpartition 返回一个元组:("string before the right-most occurrence of the separator", "the separator itself", "the rest of the string")。如果没有找到分隔符,则返回的元组将是:("", "", "the original string")
        【解决方案12】:

        很惊讶这还没有被提及:

        import os
        fn = '/some/path/a.tar.gz'
        
        basename = os.path.basename(fn)  # os independent
        Out[] a.tar.gz
        
        base = basename.split('.')[0]
        Out[] a
        
        ext = '.'.join(basename.split('.')[1:])   # <-- main part
        
        # if you want a leading '.', and if no result `None`:
        ext = '.' + ext if ext else None
        Out[] .tar.gz
        

        好处:

        • 我能想到的任何事情都按预期工作
        • 没有模块
        • 没有正则表达式
        • 跨平台
        • 易于扩展(例如,扩展没有前导点,只有扩展的最后一部分)

        作为函数:

        def get_extension(filename):
            basename = os.path.basename(filename)  # os independent
            ext = '.'.join(basename.split('.')[1:])
            return '.' + ext if ext else None
        

        【讨论】:

        • 当文件没有任何扩展名时会导致异常。
        • 如果文件名包含许多名称点,则此答案绝对会忽略变体。示例 get_extension('cmocka-1.1.0.tar.xz') => '.1.0.tar.xz' - 错误。
        • @PADYMKO,恕我直言,不应创建带有句号的文件名作为文件名的一部分。上面的代码不应该导致'tar.xz'
        • 然后改成[-1]就行了。
        【解决方案13】:

        您可以在filename 上使用split

        f_extns = filename.split(".")
        print ("The extension of the file is : " + repr(f_extns[-1]))
        

        这不需要额外的库

        【讨论】:

          【解决方案14】:
          filename='ext.tar.gz'
          extension = filename[filename.rfind('.'):]
          

          【讨论】:

          • 如果文件名根本没有.,则返回filename 的最后一个字符。这是因为如果找不到字符串,rfind 将返回 -1
          【解决方案15】:

          这是一种直接的字符串表示技术: 我看到提到了很多解决方案,但我认为大多数人都在考虑拆分。 但是,Split 在每次出现“。”时都会执行此操作。 . 您更愿意寻找的是分区。

          string = "folder/to_path/filename.ext"
          extension = string.rpartition(".")[-1]
          

          【讨论】:

          【解决方案16】:

          右拆分的另一种解决方案:

          # to get extension only
          
          s = 'test.ext'
          
          if '.' in s: ext = s.rsplit('.', 1)[1]
          
          # or, to get file name and extension
          
          def split_filepath(s):
              """
              get filename and extension from filepath 
              filepath -> (filename, extension)
              """
              if not '.' in s: return (s, '')
              r = s.rsplit('.', 1)
              return (r[0], r[1])
          

          【讨论】:

            【解决方案17】:

            即使这个问题已经得到解答,我也会在正则表达式中添加解决方案。

            >>> import re
            >>> file_suffix = ".*(\..*)"
            >>> result = re.search(file_suffix, "somefile.ext")
            >>> result.group(1)
            '.ext'
            

            【讨论】:

            【解决方案18】:

            您可以使用以下代码来拆分文件名和扩展名。

                import os.path
                filenamewithext = os.path.basename(filepath)
                filename, ext = os.path.splitext(filenamewithext)
                #print file name
                print(filename)
                #print file extension
                print(ext)
            

            【讨论】:

              【解决方案19】:

              在 Python 中从文件名中提取扩展名

              Python 操作系统模块 splitext()

              splitext() 函数将文件路径拆分为具有两个值的元组——根和扩展。

              import os
              # unpacking the tuple
              file_name, file_extension = os.path.splitext("/Users/Username/abc.txt")
              print(file_name)
              print(file_extension)
              

              使用 Pathlib 模块获取文件扩展名

              获取文件扩展名的Pathlib模块

              import pathlib
              pathlib.Path("/Users/pankaj/abc.txt").suffix
              #output:'.txt'
              

              【讨论】:

                【解决方案20】:

                一个真正的单行,如果你喜欢正则表达式。 即使你有额外的“。”也没关系。在中间

                import re
                
                file_ext = re.search(r"\.([^.]+)$", filename).group(1)
                

                查看结果:Click Here

                【讨论】:

                  【解决方案21】:

                  试试这个:

                  files = ['file.jpeg','file.tar.gz','file.png','file.foo.bar','file.etc']
                  pen_ext = ['foo', 'tar', 'bar', 'etc']
                  
                  for file in files: #1
                      if (file.split(".")[-2] in pen_ext): #2
                          ext =  file.split(".")[-2]+"."+file.split(".")[-1]#3
                      else:
                          ext = file.split(".")[-1] #4
                      print (ext) #5
                  
                  1. 获取列表中的所有文件名
                  2. 拆分文件名并检查倒数第二个扩展名,是否在pen_ext列表中?
                  3. 如果是,则将其与最后一个扩展名连接起来,并将其设置为文件的扩展名
                  4. 如果不是,则将最后一个扩展名作为文件的扩展名
                  5. 然后检查一下

                  【讨论】:

                  • 这适用于一些特殊情况。请参阅已接受的答案。它正在重新发明轮子,只是以一种错误的方式。
                  • 您好!虽然这段代码可以解决问题,including an explanation 解决问题的方式和原因确实有助于提高帖子的质量,并可能导致更多的赞成票。请记住,您正在为将来的读者回答问题,而不仅仅是现在提问的人。请edit您的回答添加解释并说明适用的限制和假设。
                  • @Brian 这样吗?
                  • 你只会让它变得更糟,以新的方式打破它。 foo.tar 是一个有效的文件名。如果我把它扔给你的代码会发生什么? .bashrcfoo 呢?有一个库函数是有原因的......
                  • 只为倒数第二个扩展名创建一个扩展名文件列表,如果不在列表中,则将最后一个扩展名作为文件的扩展名
                  【解决方案22】:

                  对于有趣的...只需将扩展名收集在一个字典中,然后在一个文件夹中跟踪所有这些扩展名。然后只需拉出您想要的扩展名。

                  import os
                  
                  search = {}
                  
                  for f in os.listdir(os.getcwd()):
                      fn, fe = os.path.splitext(f)
                      try:
                          search[fe].append(f)
                      except:
                          search[fe]=[f,]
                  
                  extensions = ('.png','.jpg')
                  for ex in extensions:
                      found = search.get(ex,'')
                      if found:
                          print(found)
                  

                  【讨论】:

                  • 这是个糟糕的主意。您之前未添加的任何文件扩展名的代码都会中断!
                  【解决方案23】:
                  # try this, it works for anything, any length of extension
                  # e.g www.google.com/downloads/file1.gz.rs -> .gz.rs
                  
                  import os.path
                  
                  class LinkChecker:
                  
                      @staticmethod
                      def get_link_extension(link: str)->str:
                          if link is None or link == "":
                              return ""
                          else:
                              paths = os.path.splitext(link)
                              ext = paths[1]
                              new_link = paths[0]
                              if ext != "":
                                  return LinkChecker.get_link_extension(new_link) + ext
                              else:
                                  return ""
                  

                  【讨论】:

                    【解决方案24】:

                    这是最简单的方法,只需一行即可获得文件名和扩展名。

                    fName, ext = 'C:/folder name/Flower.jpeg'.split('/')[-1].split('.')
                    
                    >>> print(fName)
                    Flower
                    >>> print(ext)
                    jpeg
                    

                    与其他解决方案不同,您无需为此导入任何包。

                    【讨论】:

                    • 这不适用于所有文件或类型,例如'archive.tar.gz
                    【解决方案25】:
                    def NewFileName(fichier):
                        cpt = 0
                        fic , *ext =  fichier.split('.')
                        ext = '.'.join(ext)
                        while os.path.isfile(fichier):
                            cpt += 1
                            fichier = '{0}-({1}).{2}'.format(fic, cpt, ext)
                        return fichier
                    

                    【讨论】:

                      【解决方案26】:
                      a = ".bashrc"
                      b = "text.txt"
                      extension_a = a.split(".")
                      extension_b = b.split(".")
                      print(extension_a[-1])  # bashrc
                      print(extension_b[-1])  # txt
                      

                      【讨论】:

                      • 请添加对代码的解释,而不仅仅是代码sn-ps。
                      【解决方案27】:
                      name_only=file_name[:filename.index(".")
                      

                      这将为您提供直到第一个“.”的文件名,这将是最常见的。

                      【讨论】:

                      • 首先,他需要的不是名字,而是扩展名。其次,即使他需要名字,像这样的文件也是错误的:file.name.ext
                      • 正如@ya_dimon 所提到的,这不适用于带有点的文件名。另外,他需要延期!
                      猜你喜欢
                      • 2018-10-27
                      • 2021-09-19
                      • 2011-03-31
                      • 2011-12-08
                      • 1970-01-01
                      • 2014-09-18
                      • 2012-10-06
                      • 1970-01-01
                      相关资源
                      最近更新 更多