起因是一个身在德国的程序员在微博上公布了自己的一个发明,来龙去脉可以看一下这张图。
,利用这些视频资料和音频资料作为素材来进行机器学习训练,然后比对热门社交网络和短视频APP中的女孩脸和声音的相似度,以此来确定一些活跃在社交网络上的女孩们,是不是有着另一段历史。某些看起来羞答答的姑娘,是不是背地里酷爱羞答答地做一些羞答答的事情,并且拍下来以证明自己羞答答;
,发B站的视频是电脑正常的,发P站的视频是电脑显卡坏掉了,显示不出衣服的那些残缺视频;听起来效果出色。
,基本上算是抓到就能确认,并且当前已经找到了10万左右的女孩有一段历史。并且这位程序员朋友自称收到
的启发,要给老实的程序员们设计这款产品来防止他们成为绿巨人和武大郎,堪称正义使者。于是一时之间鸡飞狗跳,男性欢呼女性痛骂,大家在微博上你争我吵,情绪爆炸。
但我却在这件事情中发现了几个问题,并在深究过程中感受到了一种恐惧,发自内心的恐惧。
这个所谓准确率99%和100%,是怎么定义的,计算标准是什么?统计口径是什么?
从技术上讲,这个人自称的准确率,在其描述的场景中基本不可能实现,或者说,他说的准确率与读者们理解的准确率是完全不同的概念。
很简单,不断输入2位数加减法的问题,然后依据机器人算出的答案,和正确答案来比对即可,正确的次数除以总的测试数,就是正确率。
但是这里面有一个前提,就是我们本身必须知道正确答案是什么,这样我们才知道机器算的对还是不对,假使我们不知道正确答案,那么我们是没有办法判定机器的计算。
只让机器算1次,那么最终的准确率要么是100%,要么是0%,单次结果对于准确率的影响是100%。
如果让机器算1亿次,那么单次结果对于准确率的影响就是1亿分之1,单次误差基本可以忽略。
一个测试了1亿次的实验结论和一个测试了100次的实验结论摆在你面前,你当然知道哪个更值得信赖。
发现了么,在这个过程中,面对不同的问题,你的答案是完全不同的,但你的收入其实一直没有变化,变的是如何定义你的收入,这个定义的过程,叫做统计口径。
记住这3个定理,面对任何数据时,都要问一下这3个定理,这有利于帮助各位更清晰的认知这个世界。
他在推导准确率的过程中,使用了什么统计口径,测试了多少样本,他自己有多少正确答案,全部都是未知的,我们看到的只有一个干巴巴的结论。
再考虑到他这次操作的方向为人脸和声纹,进一步验证了他的结论不可能靠谱。
。所谓半监督,就和我们上面讲到的机器人算数一样,给机器大量照片和视频来做识别训练,同时给到机器答案。
简单举例给机器2张猫的照片,让机器来比对是否是同一只猫,等机器输出结果后,告诉机器这次比对是正确的,还是错误的,机器会依照这次的结果与正确答案的误差,来调整下一次的比对逻辑。
,然后把结果输出给机器,这是非常非常高的成本。而这位发明原谅宝的程序员,在训练机器之前,必须要有足够多的正确比对样本,不然算出来的内容,准确度一定是有问题的。
,他必须本身明确知道这一点,而且必须有足够多的这样的正确的案例,才能拿来训练机器。那么这里就出现了一个硬伤,他只是一个普通人,有一点点技术,但背后没有公司也没有钱,
,他是不可能有的,这个在逻辑上不成立。他最多下载一些开源的训练样本,但是针对色情网站和社交媒体的训练样本,他自己也是没有的,他
再者,他所谓的100TB数据,本身也有问题,首先就是100TB的数据,不是一个普通程序员能够处理的,这个量级的数据清洗,需要专业的数仓团队在云加持下做。
,怎么可能这么多家爬下来才100TB,这不现实。所以他所谓的训练,一开始就是有问题的,因为他解决不了原始样本准确度的问题,他没有答案,也就无从利用答案来训练机器。
虽然他说的事情在当前是基本不可能实现的,但我们可以假设他所言不虚,那么就还有新的问题。
假使他不知道从哪里搞来了一堆可信的训练样本,也通过某种超自然的爬虫和数据清洗能力找到了各大网站上100TB的精华,通过训练掌握了一种相对靠谱的匹配模型,那么他做出来的产品是可信的吗?
我想各位日常在拍照的时候,一定会发现,同一个人,拍出来的照片是不一样的。
不同的角度,不同的距离,脸上的表情,是否逆光,美颜开了几档,有没有有化妆等等等等,即使是同一个人,拍出来的照片都可能完全不同,差距之大甚至好像换了一个人。
并且由于P图软件在社交媒体上的盛行,各种美颜工具的滥用,导致很多现实中长得不太一样的人通过同一款软件P成了差不多的网红脸,这会进一步干扰机器比对。
简而言之,就是被机器认定为一致的2个人,很有可能只是使用了同样的P图软件,或者说是两个不同的人刚好在不同的角度距离光线下拍出了类似的照片。
例如一个同一个女孩,同样的照片,一张是黑头发,一张是白头发,人可以确认这是同一个人。
但是机器可能就认为黑头发的和熊猫是同一个人,因为他们的特征都是颜色黑白相间,机器与人的认知不同。
当然这一切可以通过调整算法和参数来修改,但是这个作者本身没有开源自己的这套算法,所以谁也不知道他怎么做的,同样也不知道他做的是否可信。
假使这位程序员通过超越时代的技术,彻底还原照片与视频的图像误差,百分百确认她就是她,那么可以相信他吗?
你可以看到的是某个女孩/男孩有着某一段视频,但是你不知道这段视频背后是什么背景,这段视频是怎么来的。
懂了么,即使知道一个人是视频的主角,依然不能确认她就是需要被指责的坏人,因为这个视频拍摄的背景,上传的原因,都是未知的。
下面我要说的,是为什么我一眼就能看到这件事不靠谱,但是依然从骨子里感到害怕。
互联网是有记忆的,我们只要上网,必定会从网上留下痕迹,或许是好的,或许是坏的。
我们每个人都知道人肉搜索和网络暴力,但截至目前,这些事件尽管恐怖,但往往是针对某一个或者某几个个体,而非群体。
而现在,随着技术的进步,完全可以做到针对我们每一个人,来进行无差别搜索。
即使你本身没有留下什么痕迹,但是与你相关的人如果在网上对你做出过什么评价,则这些评价也会被挖出来。
过去的你你所表达的一切,都是有特定环境,特定场景,特定事件,特定心情,乃至特定的诱导。
,技术能做的,就是找出你的一切(疑似)痕迹,然后公布出来。而看客们,则只会看到他们想看到的,然后对你评头论足。
这会对参与其中的每一个人的人生,造成毁灭性打击,每一个人的形象,都会崩塌,每一个人。
一个热衷于用技术造福大众,并硕果累累的前辈,完全可能在年轻的时候偷看过女生洗澡。
人是会变的,甚至每一年都会变,除非违法犯罪实锤,否则不能用过去做过的某些事情来对其现在来下定论,这是一个基础常识。
因为我们永远没法完全公平客观的评价一个人,我们只能依照自己的主观来对某个人在某件事情的表现作出评价。
即使要评价,也应该是在他死后,把他一生所做过的好事坏事都罗列出来,可惜这样就什么热点也都没有了。
这就必然导致我们对于所有人的评价都不是客观的,而在这种前提下,技术一旦出现把我们的一切都强制暴露出来,这带来的就是我们每个人都会立刻面临这种不客观的评价。
尤其是我们追逐热闹的本能会让我们只能一眼看到一件事里最近发生爆点最多的部分。
为什么浪子回头总是得到掌声,一个一辈子做好事的人临到晚年出轨就会被骂的一文不值?
说穿了就是人对于别人的评价只会基于最近的一件事情,人没有资格随便给别人的一生下结论。
因为我们总是依照当前的线索来给事情定性,而当新的线索出现后,整件事情又将得到一个新的评价。
原本事物就是这样交替评价的,但是随着技术出现,我们未来将会不断被爆出各种黑历史,我们每个人都将处在这个轮回中,不停被翻来翻去。
原谅宝之后,再没有女孩子再敢放心去爱一个人了,谁知道对方会不会给她来一个惊喜?这一切都会被翻出来,然后被嘲笑。
不管这个是不是那个女孩,也不管那个女孩当初的状况如何,反正只要有不雅视频,先羞辱一通再说。
接下来,会有人去做专门的爬虫,来爬社交媒体的全部资料,然后梳理出我们每一个人在网络上留下的痕迹,可能是我们曾经的言论,图片,声音,视频,也可能是我门熟悉的人评价我们或者在他们自己的分享中带出我们的资料(例如合影)。
考虑到这里面的工作量,应该是机器算法来实现,还有5G技术可以帮助算法提供效率,万物互联的年代这些都不会困难。
我上文说过了,机器算法没有价值观,对于世界的认知也不同于人类,用这种算法来评价人类,公平吗?
这类项目或许一开始会试图商业化,付费删资料或者付费查询等,就像每个人的开房记录与征信报告一样。
我们的一切信息都被前所未有的串联到一起,我们每个人都要接受每一个人的审视,一点点瑕疵都不能有。
我们不能犯任何错误,不能有任何情绪过激的表达,我们甚至不敢有任何道德瑕疵,因为会被技术打标处理,然后挂出来被人所有人随意点评。
原谅宝自己的发明者都知道拼命保护自己的隐私,在他疯狂侵害所有人隐私的前提下,其他人居然还在欢呼
- 本文固定链接: https://www.douyinkuaishou.cc/?id=24009
- 转载请注明: admin 于 抖音快手 发表
《本文》有 0 条评论