【发布时间】:2018-06-19 22:06:06
【问题描述】:
在 A 列中有 3 个句子(ABC、DEF、GHI)。句子以 ”结尾
** & **以“
例如:这是一个句子
Column A Column B
(('<s>', '<s>'), 'abc') 0.043025210084033615
(('<s>', 'abc'), 'abc') 0.65234375
(('abc', 'abc'), 'abc') 0.04259501965923984
(('abc', 'abc'), 'abc') 0.18604651162790697
(('abc', 'abc'), '</s>') 0.41317365269461076
(('abc', '</s>'), '</s>') 0.011148272017837236
当一个句子以结束标记“'),''”结尾时,我想将 B 列乘以特定句子的所有行 示例:(0.04302521*0.65234375*0.04259502*0.186046512*0.413173653*0.011148272=1.02452)
我想得到每个数据帧的输出
Column A Column B
(('<s>', '<s>'), 'abc') 0.043025210084033615
(('<s>', 'abc'), 'abc') 0.65234375
(('abc', 'abc'), 'abc') 0.04259501965923984
(('abc', 'abc'), 'abc') 0.18604651162790697
(('abc', 'abc'), '</s>') 0.41317365269461076
(('abc', '</s>'), '</s>') 0.011148272017837236
(('<s>', '<s>'), 'def') 0.09090909090909091
(('def', 'def'), 'def') 0.008287292817679558
(('def', 'def'), 'def') 0.13506493506493505
(('def', 'def'), '</s>') 0.007653061224489796
(('def', '</s>'), '</s>') 0.08333333333333333
(('<s>', '<s>'), 'ghi') 0.5
(('ghi', 'ghi'), 'ghi') 0.125
(('ghi', 'ghi'), 'ghi') 0.033766233766233764
(('ghi', 'ghi'), '</s>') 0.0694980694980695
(('ghi','</s>'), '</s>') 0.16666666666666666
输出应该是:(0.04302521*0.65234375*0.04259502*0.186046512*0.413173653*0.011148272=1.02452) (0.090909091*0.008287293*0.135064935*0.007653061*0.083333333=6.48958) (0.5*0.125*0.033766234*0.069498069*0.166666667=2.44447)
输出应为以下格式 1.02452 6.48958 2.44447
【问题讨论】:
-
在同一个句子的新“块”之前是否总是有
('<s>', '<s>')? -
打破包含 的行), 来自 Pandas 数据帧的字符串模式我想将 B 列乘以特定句子的所有行