【发布时间】:2020-08-23 07:17:36
【问题描述】:
最近在 HuggingFace 中实现的 Reformer 有他们所谓的 LSH Self Attention 和 Local Self Attention,但是在阅读 the documentation 后,我不太清楚区别。两者都使用分桶来避免普通变压器的二次内存需求,但尚不清楚它们有何不同。
本地自注意力只允许查询按顺序关注它们附近的键(即,在句子中的给定窗口内),而不是 LSH 自注意力所做的正确 LSH 散列?还是别的什么?
【问题讨论】:
标签: pytorch huggingface-transformers