【发布时间】:2010-10-07 04:24:57
【问题描述】:
是否有从文件名中提取扩展名的功能?
【问题讨论】:
标签: python filenames file-extension
是否有从文件名中提取扩展名的功能?
【问题讨论】:
标签: python filenames file-extension
是的。使用os.path.splitext(见Python 2.X documentation或Python 3.X documentation):
>>> import os
>>> filename, file_extension = os.path.splitext('/path/to/somefile.ext')
>>> filename
'/path/to/somefile'
>>> file_extension
'.ext'
与大多数手动字符串拆分尝试不同,os.path.splitext 将正确地将 /a/b.c/d 视为没有扩展名而不是具有扩展名 .c/d,它会将 .bashrc 视为没有扩展名而不是具有扩展名 .bashrc :
>>> os.path.splitext('/a/b.c/d')
('/a/b.c/d', '')
>>> os.path.splitext('.bashrc')
('.bashrc', '')
【讨论】:
basename 的使用在这里有点令人困惑,因为 os.path.basename("/path/to/somefile.ext") 会返回 "somefile.ext"
endswith() 不会更便携和更 Python 吗?
.asd 真的是扩展名!如果你仔细想想,foo.tar.gz 是一个 gzip 压缩文件 (.gz),它恰好是一个 tar 文件 (.tar)。但它首先是一个 gzip 文件。我根本不希望它返回双重扩展。
splittext。如果他们只是做任何事情来表示这个名字的各个部分之间的中断,那么识别它是splitExt 或split_ext 会容易得多。我肯定不会是唯一犯这个错误的人吗?
os.path.splitext('somefile.ext') => ('somefile', '.ext')。随意提供一个实际的反例,而不参考某些第三方库。
import os.path
extension = os.path.splitext(filename)[1]
【讨论】:
import os.path 而不是from os import path?
from os import path,那么名称path 将在您的本地范围内占用,其他查看代码的人可能不会立即知道路径是来自操作系统的路径模块。就好像您使用 import os.path 一样,它会将其保留在 os 命名空间中,并且无论您在哪里拨打电话,人们都会立即知道它是来自 os 模块的 path()。
_, extension = os.path.splitext(filename) 的结构更好看。
if check_for_gzip and os.path.splitext(filename)[1] == '.gz':
3.4 版中的新功能。
import pathlib
print(pathlib.Path('yourPath.example').suffix) # '.example'
我很惊讶还没有人提到pathlib,pathlib 太棒了!
如果您需要所有后缀(例如,如果您有 .tar.gz),.suffixes 将返回它们的列表!
【讨论】:
''.join(pathlib.Path('somedir/file.tar.gz').suffixes)
.suffixes[-2:] 以确保最多只能获取 .tar.gz。
"filename with.a dot inside.tar"。这是我目前使用的解决方案:"".join([s for s in pathlib.Path('somedir/file.tar.gz').suffixes if not " " in s])
import os.path
extension = os.path.splitext(filename)[1][1:]
只获取扩展名的文本,不带点。
【讨论】:
. 结尾的文件名和没有扩展名的文件名都将返回空。
对于简单的用例,一个选项可能是从点拆分:
>>> filename = "example.jpeg"
>>> filename.split(".")[-1]
'jpeg'
文件没有扩展名时不会出错:
>>> "filename".split(".")[-1]
'filename'
但你必须小心:
>>> "png".split(".")[-1]
'png' # But file doesn't have an extension
也不适用于 Unix 系统中的隐藏文件:
>>> ".bashrc".split(".")[-1]
'bashrc' # But this is not an extension
一般用途,首选os.path.splitext
【讨论】:
"my.file.name.js".split('.') => ['my','file','name','js]
['file', 'tar', 'gz'] 和 'file.tar.gz'.split('.') vs ['file.tar', 'gz'] 和 'file.tar.gz'.rsplit('.', 1)。是的,可能是。
值得在其中添加一个较低的内容,这样您就不会想知道为什么 JPG 没有出现在您的列表中。
os.path.splitext(filename)[1][1:].strip().lower()
【讨论】:
上述任何解决方案都有效,但在 linux 上,我发现扩展字符串末尾有一个换行符,这将阻止匹配成功。将strip() 方法添加到末尾。例如:
import os.path
extension = os.path.splitext(filename)[1][1:].strip()
【讨论】:
.splittext(filename)[1][1:] 中的[1:]) - 提前感谢您
splittext()(不像你用'.'分割字符串)包括'.'扩展名中的字符。额外的[1:] 摆脱了它。
使用 splitext 时,带有双扩展名的文件会出现问题(例如 file.tar.gz、file.tar.bz2 等)
>>> fileName, fileExtension = os.path.splitext('/path/to/somefile.tar.gz')
>>> fileExtension
'.gz'
但应该是:.tar.gz
可能的解决方案是here
【讨论】:
gunzip somefile.tar.gz 输出文件名是什么?
somefile.tar。对于tar -xzvf somefile.tar.gz,文件名应为somefile。
你可以在 pathlib 模块中找到一些很棒的东西(在 python 3.x 中可用)。
import pathlib
x = pathlib.PurePosixPath("C:\\Path\\To\\File\\myfile.txt").suffix
print(x)
# Output
'.txt'
【讨论】:
只是join 所有pathlib suffixes。
>>> x = 'file/path/archive.tar.gz'
>>> y = 'file/path/text.txt'
>>> ''.join(pathlib.Path(x).suffixes)
'.tar.gz'
>>> ''.join(pathlib.Path(y).suffixes)
'.txt'
【讨论】:
虽然这是一个老话题,但我想知道为什么在这种情况下没有提到一个非常简单的python api,称为rpartition:
要获取给定文件绝对路径的扩展名,您只需键入:
filepath.rpartition('.')[-1]
示例:
path = '/home/jersey/remote/data/test.csv'
print path.rpartition('.')[-1]
会给你:'csv'
【讨论】:
("string before the right-most occurrence of the separator", "the separator itself", "the rest of the string")。如果没有找到分隔符,则返回的元组将是:("", "", "the original string")。
很惊讶这还没有被提及:
import os
fn = '/some/path/a.tar.gz'
basename = os.path.basename(fn) # os independent
Out[] a.tar.gz
base = basename.split('.')[0]
Out[] a
ext = '.'.join(basename.split('.')[1:]) # <-- main part
# if you want a leading '.', and if no result `None`:
ext = '.' + ext if ext else None
Out[] .tar.gz
好处:
作为函数:
def get_extension(filename):
basename = os.path.basename(filename) # os independent
ext = '.'.join(basename.split('.')[1:])
return '.' + ext if ext else None
【讨论】:
[-1]就行了。
您可以在filename 上使用split:
f_extns = filename.split(".")
print ("The extension of the file is : " + repr(f_extns[-1]))
这不需要额外的库
【讨论】:
filename='ext.tar.gz'
extension = filename[filename.rfind('.'):]
【讨论】:
.,则返回filename 的最后一个字符。这是因为如果找不到字符串,rfind 将返回 -1。
这是一种直接的字符串表示技术: 我看到提到了很多解决方案,但我认为大多数人都在考虑拆分。 但是,Split 在每次出现“。”时都会执行此操作。 . 您更愿意寻找的是分区。
string = "folder/to_path/filename.ext"
extension = string.rpartition(".")[-1]
【讨论】:
右拆分的另一种解决方案:
# to get extension only
s = 'test.ext'
if '.' in s: ext = s.rsplit('.', 1)[1]
# or, to get file name and extension
def split_filepath(s):
"""
get filename and extension from filepath
filepath -> (filename, extension)
"""
if not '.' in s: return (s, '')
r = s.rsplit('.', 1)
return (r[0], r[1])
【讨论】:
即使这个问题已经得到解答,我也会在正则表达式中添加解决方案。
>>> import re
>>> file_suffix = ".*(\..*)"
>>> result = re.search(file_suffix, "somefile.ext")
>>> result.group(1)
'.ext'
【讨论】:
\.[0-9a-z]+$,如this post。
您可以使用以下代码来拆分文件名和扩展名。
import os.path
filenamewithext = os.path.basename(filepath)
filename, ext = os.path.splitext(filenamewithext)
#print file name
print(filename)
#print file extension
print(ext)
【讨论】:
splitext() 函数将文件路径拆分为具有两个值的元组——根和扩展。
import os
# unpacking the tuple
file_name, file_extension = os.path.splitext("/Users/Username/abc.txt")
print(file_name)
print(file_extension)
获取文件扩展名的Pathlib模块
import pathlib
pathlib.Path("/Users/pankaj/abc.txt").suffix
#output:'.txt'
【讨论】:
一个真正的单行,如果你喜欢正则表达式。 即使你有额外的“。”也没关系。在中间
import re
file_ext = re.search(r"\.([^.]+)$", filename).group(1)
查看结果:Click Here
【讨论】:
试试这个:
files = ['file.jpeg','file.tar.gz','file.png','file.foo.bar','file.etc']
pen_ext = ['foo', 'tar', 'bar', 'etc']
for file in files: #1
if (file.split(".")[-2] in pen_ext): #2
ext = file.split(".")[-2]+"."+file.split(".")[-1]#3
else:
ext = file.split(".")[-1] #4
print (ext) #5
【讨论】:
foo.tar 是一个有效的文件名。如果我把它扔给你的代码会发生什么? .bashrc 或 foo 呢?有一个库函数是有原因的......
对于有趣的...只需将扩展名收集在一个字典中,然后在一个文件夹中跟踪所有这些扩展名。然后只需拉出您想要的扩展名。
import os
search = {}
for f in os.listdir(os.getcwd()):
fn, fe = os.path.splitext(f)
try:
search[fe].append(f)
except:
search[fe]=[f,]
extensions = ('.png','.jpg')
for ex in extensions:
found = search.get(ex,'')
if found:
print(found)
【讨论】:
# try this, it works for anything, any length of extension
# e.g www.google.com/downloads/file1.gz.rs -> .gz.rs
import os.path
class LinkChecker:
@staticmethod
def get_link_extension(link: str)->str:
if link is None or link == "":
return ""
else:
paths = os.path.splitext(link)
ext = paths[1]
new_link = paths[0]
if ext != "":
return LinkChecker.get_link_extension(new_link) + ext
else:
return ""
【讨论】:
这是最简单的方法,只需一行即可获得文件名和扩展名。
fName, ext = 'C:/folder name/Flower.jpeg'.split('/')[-1].split('.')
>>> print(fName)
Flower
>>> print(ext)
jpeg
与其他解决方案不同,您无需为此导入任何包。
【讨论】:
def NewFileName(fichier):
cpt = 0
fic , *ext = fichier.split('.')
ext = '.'.join(ext)
while os.path.isfile(fichier):
cpt += 1
fichier = '{0}-({1}).{2}'.format(fic, cpt, ext)
return fichier
【讨论】:
a = ".bashrc"
b = "text.txt"
extension_a = a.split(".")
extension_b = b.split(".")
print(extension_a[-1]) # bashrc
print(extension_b[-1]) # txt
【讨论】:
name_only=file_name[:filename.index(".")
这将为您提供直到第一个“.”的文件名,这将是最常见的。
【讨论】:
file.name.ext