【发布时间】:2020-04-09 06:42:35
【问题描述】:
我正在做一个关于说话人识别的项目,我有音频文件的数据集,我将声音的特征(1x13 的数组)作为输入和输出,我为每个说话人选择一个随机整数(比如说说话人 1 -输出 = 1 个扬声器 2 输出 = 2...)
有人建议我使用三元组损失来获得更好的准确性,但我不明白我们如何在张量流中实现它(根本没有示例)
根据我到目前为止的理解,我为每个扬声器取 2 个正值和一个负值(例如,同一扬声器的 2 个音频文件的 2 个特征,以及我将创建的另一个扬声器的合成音频文件的一个特征波网)
但是为了实现三元组损失,我如何使用这些功能,这意味着我如何使用张量流真正实现它
【问题讨论】:
标签: python tensorflow neural-network speech-recognition loss-function