【发布时间】:2019-05-16 13:42:40
【问题描述】:
我有一个带有一系列连续地理坐标的 df。我想找到这些连续点之间的距离。 1->2, 2->3 .... end-1->end.
使用df.shift(1) 看起来不太漂亮,也使用循环。
可以用一些递归函数更优雅地完成吗?
【问题讨论】:
-
这里我觉得
geo_dist(df, df.shift)看起来很漂亮。
我有一个带有一系列连续地理坐标的 df。我想找到这些连续点之间的距离。 1->2, 2->3 .... end-1->end.
使用df.shift(1) 看起来不太漂亮,也使用循环。
可以用一些递归函数更优雅地完成吗?
【问题讨论】:
geo_dist(df, df.shift) 看起来很漂亮。
import pandas as pd
def calculate_distance(lat_from, long_from, lat_to, long_to):
# some better logic
return lat_from - lat_to + long_from - long_to
df = pd.DataFrame({'long': [1, 2, 4.2, 5, 6], 'lat': [7, 4, 2, 1.2, 2]})
df[['lat_to', 'long_to']] = df.shift(-1)
# this is way faster, but may not be possible depending on your calculation
calculate_distance(df['lat'], df['long'], df['lat_to'], df['long_to'])
>>> 0 2.000000e+00
>>> 1 -2.000000e-01
>>> 2 2.220446e-16
>>> 3 -1.800000e+00
>>> 4 NaN
>>> dtype: float64
# or
# a lot slower, processes on per-row basis
df.apply(lambda row: calculate_distance(row['lat'], row['long'], row['lat_to'], row['long_to']), axis=1)
>>> 0 2.000000e+00
>>> 1 -2.000000e-01
>>> 2 2.220446e-16
>>> 3 -1.800000e+00
>>> 4 NaN
>>> dtype: float64
速度比较,试试pandas.DataFrame.apply、pandas.DataFrame.applymap和普通广播操作的区别。
【讨论】: