名字

没想好

高度相似图片检测: Introduction

| Comments

在db实习了2个多月很开心。老实说,在那里做的项目没有想象中的理想,觉得惭愧啊。前段时间清风老师有和我提起一个敏感图片检测的需求。当时候有试着用SIFT和min-hash实现,但是结果不是很理想。在公司和在家自己弄有很大的区别,时间上的紧迫,很多时候虽然头不会催,但是你看着别人在交东西,自己却没有,压力很大,很多时候就需要move on。结果就是这个项目没有完成, 感脚好对不住清风老师啊!真的不会再爱了!

这几天闲下来,我突然有想好好研究研究这方面的东西了,看了些paper,觉得有很多实现方法,结果有好的有坏的,我准备都试着去实现下,把他们的有点和缺点都记录下来,希望能找到一个很好的解决方案,如果运气好的话。

Near-duplicate image(高相似图片)的检测不比完全一样的图片检测来的简单,后者可以直接用哈希生成像MD5类似的指纹,然后保存每个图片的时候也保存那个指纹,这样在查找的时候只要比对指纹就可以了,这样的话速度上会有很大的提升。

那用什么样的办法能有效的比对图片的相似度呢? 方法有很多。 首先要说的一点是,在比对的时候,速度是非常重要的,所以,一般都是通过指纹(fingerprint)技术把一张图片合理的压缩成一个容量占用很小的方便计算相似度的数据集。 前面说过md5是不能用在这里的,为什么呢?因为一个微小的变化会是两个图片之间的MD5完全不一样。而在这里要做的是:

  • 相同图片的指纹要一样
  • 类似图片的指纹也要类似
  • 完全不相同的图片指纹的差别很大

做到以上几点,那么图片的相似度的识别就完成了,但是要找到一个函数f做到以上这种方法很难。这也是这里要慢慢探索的。

Comments