【问题标题】:Youtube content identification technology?Youtube内容识别技术?
【发布时间】:2010-10-13 13:01:39
【问题描述】:

我不确定 Youtube 是否是唯一拥有这项技术的网站,但 YT 中的内容识别(Content ID)基本上是一种自动识别和删除侵犯版权的技术。您可以在此处阅读更多信息:

http://www.youtube.com/t/contentid

当我的一个视频(包含特定音乐曲目)因侵犯版权而被标记和删除时,我认为它 [内容 ID 系统] 可能很愚蠢。于是我做了一些实验:没有一个能骗过过滤器~

  • 在歌曲中间添加了一系列哔声
  • 通过歌曲多次改变音调
  • 改变了几次音量
  • 调整了速度
  • 添加了音频叠加层
  • 添加了一些音频效果

另一方面,我不知道有任何材料被错误地匹配为受版权保护。例如,钢琴版本的歌曲不会错误地触发审查。

我并不是在抱怨我的视频被删除。我只是对内容审查员的有效性感到惊讶。我想知道算法如何正确地将这首歌识别为侵犯版权,即使在我努力规避它之后也是如此。任何直接匹配的尝试都会立即被击败,任何涉及音符模式的算法都可能被哔哔声和音高变化所欺骗。

嗯,这是我的好奇心,而不是一个紧迫的问题..

【问题讨论】:

  • 我在 imeem.com 也找到了类似的东西,即使名称、标签等都不同,它们也可以识别歌曲的“重复”!
  • 嗯,几乎没有相关性,因为这样两首歌的任何匹配或散列都会返回 true。假设歌曲是相同的。
  • 他们使用acoustic fingerprinting 的形式。虽然谷歌已经发表了关于这个主题的论文,但我相信他们使用的算法是不公开的(可能是为了让人们更难找到绕过它的方法)。

标签: algorithm video youtube


【解决方案1】:

Pedro Moreno 和 Google/Youtube 的其他人正在研究它。他们使用finite-state transducers 来识别乐音单元的序列,类似于自动语音识别中的音素。

查看这篇文章:

如果您在整首歌曲中更改速度或音高,我很惊讶这些算法仍然可以识别歌曲。但也许他们将音高和速度(使用节拍之间的时间)标准化,以便能够识别覆盖的版本,而不仅仅是原始版本。但它可以忽略您添加的哔声也就不足为奇了,因为否则您的音频流中有足够的相似性。

(实际上,基于有限状态的算法非常适合应用于我的 iTunes 库,以正确标记文件。因为像 MusicBrainz 这样的服务或多或少依赖于音频和数据库条目的精确哈希匹配,而换能器方法在识别文件时似乎更能容忍差异。)

【讨论】:

  • 所以我仍然想知道其他人如何能够上传部分电影剪辑而不被阻止?
  • @RickyLevi 内容所有者希望这些剪辑能够传播开来。基本上,这是免费的广告。就是这样。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2011-02-23
  • 2012-10-04
  • 1970-01-01
  • 1970-01-01
  • 2010-11-17
  • 2012-07-02
  • 1970-01-01
相关资源
最近更新 更多