自从互联网商业化发展以来,不论是新闻客户端、视频网站或是电商平台……所有的平台,都是把自己默认为一个优秀的饲养员,它按照自己的想法,把内容(饲料)Push(喂)给用户。
这些饲养员都是受过训练的专业人士,行话叫做---由网站编辑为用户设置议程,按照大多数用户的口味挑选内容。
后来编辑实在忙不过来,采用机器帮忙---最简单的机器方式则是“热门推荐”,比如按照点击量或其它数据来做排序。
饲养员模式最大的问题是不知道食客胃口如何,这会导致两个显著的后果:一是食客不满意,用户个性化需求不能得到满足;二是自身资源浪费,大量长尾资源长期得不到曝光,增加沉没成本。
有人发现了机器的好处。机器可以是根据用户特征来推荐内容。正如一个高明的厨子可以根据每一个食客的口味提供饭菜,如果机器足够聪明,在一定程度上可以解决所有用户的个性化需求。这岂不是内容产业的C2M?
准确的说,这是内容分发的C2M,它以单个用户为对象进行沟通,跳出了大众传播/分众传播窠臼,是不是足以革了所有的搜索引擎和门户网站的命?
这种智能化的内容C2M有深刻的时代背景。今天,你已经站在时代边缘,眼睁睁的看着AI技术点燃了IOT的引线,接下来你将发现自己无可拒绝的进入下一个信息核爆的时代:信息终端爆炸、信息规模爆炸、信息平台爆炸……
在信息高速公路上,你开过的车,你走过的路,全都变了规则,你所熟悉的一切的基于饲养员模式的知识框架都面临颠覆。
在这个时代,饲养员模式已经失灵了,聪明的机器将成为最大的变量。
第一个出现的场景是人类生产内容,机器分发内容。
下一个出现的场景是机器生产内容,机器分发内容。
内容产业面临C2M革命,行不行?
“当然不行,机器很蠢。”如果你这样想,那么很遗憾,你注定是看不到明天的太阳了。
“当然行。”如果你这么想,那么祝贺你掉进坑里了。
真实的情况,你可能意想不到。
一、内容C2M之路本质是走向个体化沟通
作为一个独立的研究方向,推荐系统的源头可以追溯到90年代初的协同过滤算法,中期的代表则是传统的机器学习算法,比如Netflix大赛所推动的隐语义模型,现在则是更加复杂的深度学习模型。
近些年,深度学习突飞猛进,使得机器推荐变成了整个互联网的太阳。在新技术的推动下,个性化沟通也变得更加可行,而且越来越接近单用户沟通。
(一)协同过滤蹒跚起步
按照百科词条解释,协同过滤是利用用户群体的喜好来为你推荐感兴趣的信息,这些用户要么兴趣相投、要么具有共同经验,然后网站结合你的反馈(如评分),进行过滤分析,进而帮助别人筛选信息。
当然,用户喜好不一定局限于特别感兴趣的信息,特别不感兴趣信息的纪录也相当重要。协同过滤表现出了出色的效果,开始在互联网行业称王称霸。
起先,协同过滤应用于邮件过滤。
1992年,施乐公司的科学家提出了Tapestry系统。这是最早应用协同过滤系统的设计,主要是解决Xerox公司在Palo Alto的研究中心资讯过载的问题。这个研究中心的员工每天会收到非常多的电子邮件却无从筛选分类,于是研究中心便发展这项实验性的邮件系统来帮助员工解决这项问题。
接着,协同过滤思路开始应用于内容推荐。
1994年,美国Minnesota的GroupLens项目组创办了一个新闻筛选系统,这个系统可以帮助新闻的阅听者过滤其感兴趣的新闻内容,阅听者看过内容后给一个评比的分数,系统会将分数记录起来以备未来参考之用,假设前提是阅听者以前感兴趣的东西在未来也会有兴趣阅听,若阅听者不愿揭露自己的身分也可以匿名进行评分。作为最老牌的内容推荐研究团队,GroupLens于1997年创建了电影推荐系统MovieLens,还有性质相近的音乐推荐系统Ringo,以及影音推荐系统Video Recommender等等。
后来,出现了另一个里程碑——电子商务推荐系统。
1998年,亚马逊的林登和他的同事申请的基于物品的协同过滤(item-to-item)技术专利,是亚马逊早期使用的经典算法,一度引爆流行。
协同过滤算不算人工智能?从技术的角度来看,它也属于AI范畴。但必须指出的是协同过滤算法比较弱智,无论是基于用户的协同过滤,还是基于物品的协同过滤,推荐效果总是差强人意。
怎样通过一个成体系的方法论来引导推荐系统的不断优化?如何才能把复杂的现实因素糅合到推荐结果中?攻城狮们一度非常非常头大,重赏之下必有勇夫,后来,终于有人发现了更加灵活的思路。
(二)传统机器学习开始加速
2006年,Netflix宣布举办Netflix Prize。Netflix是一家老牌的在线影片租赁网站,举办大赛的目的旨在解决电影评分预测问题的机器学习和数据挖掘问题。主办方为此下了血本,宣称对于那些能够将Netflix的推荐系统Cinematch的准确率提升10%的个人或团队,奖励100万美元!
Netflix在自家blog上披露了许多庞大的数据,举例如下:
我们有几十亿的用户评分数据,并且以每天几百万的规模在增长。
我们的系统每天产生几百万的播放点击,并且包含很多特征,例如:播放时长、播放时间点和设备类型。
我们的用户每天将几百万部视频添加到他们的播放列表。
显然,在这些海量数据面前,我们已经不能靠由纯人工或者小型系统建立起来的分类标准对整个平台用户喜好进行标准化。
比赛开始一年后,Korbell的团队以8.43%的提升赢得了第一个阶段奖。他们付出了超过2000个小时的努力,融合了107种算法。其中两种最有效的算法:矩阵分解(通常被叫做SVD,奇异值分解)和局限型玻尔兹曼机(RBM)。
矩阵分解作为协同过滤的补充,核心是将一个非常稀疏的用户评分矩阵R分解为两个矩阵:User特性的矩阵P和Item特性的矩阵Q,并用已知的数据构建这些向量,使用它们来预测未知的项。该算法在有效提高计算精度的同时,还能够加入各种建模元素,使更多元化的信息融合进来,更好地利用大量数据。
然而矩阵分解也有不足。不足之处在于,矩阵分解和协同过滤算法一样,都属于监督学习范畴,粗糙且简单,适用于小型系统。摆在网络巨头们面前的问题是,如果需要建立一个大型推荐系统,协同过滤和矩阵分解则会花费较长的时间。怎么办?
于是,一些攻城狮将眼光转移到无监督学习中。无监督学习中的聚类算法的本质是识别用户组,并对这个组内的用户推荐相同的内容。当我们拥有足够的数据,最好使用聚类作为第一步,来缩减协同过滤算法中相关邻居的选择范围。
隐语义模型运用了聚类分析方法,其一大优势是既可以做评分预测,又可以同时对文本内容建模,使得通过内容来进行推荐的效果得到较大提升。
Copyright © 2024 江苏爱康能源研究院有限公司上海分公司 版权所有 沪ICP备63918162号 XML地图