服务电话:025-85632568

模型百科
bet36365网址基于用户画像与新闻词向量的个性化新
发表日期:1536551174 浏览次数:79

  bet36365目前,因为用户行为数据的高维稀少特点以及权衡旧事内容类似性的复杂度较高,本文针对这两个问题,从分类角度考虑,提出一种基于用户画像取旧事词向量的个性化旧事保举模子,对用户的行为数据等进行阐发,建立用户画像模子,提取用户画像特征,并利用指数衰减模子的Word2Vec框架进行词向量锻炼,连系文本特征的向量空间模子建立旧事全局特征,预测用户对旧事的行为——点击、不点击,从而将点击概率较高的旧事保举给用户,提高保举结果,可普遍使用于旧事门户网坐,如人平易近网、网易旧事等。

  跟着互联网的敏捷成长,用户获打消息的手段越来越便利和丰硕。为了缓解用户消息过载压力,保举系统普遍使用于各类网坐,包罗电子商务[1]、、视频音乐网坐[2]等等。因为用户个别的差同性,个性化保举逐步获得成长取采用。个性化保举系统通过度析用户的汗青消息和行为数据,预测用户乐趣快乐喜爱,从而向用户保举感乐趣或潜正在乐趣的消息,并针对分歧的用户给出分歧的个性化展现页面,以此来提高网坐的点击率和收益。

  目前常用的保举算法次要分为三类:基于内容的保举算法[3]、协同过滤保举算法[1][4]以及夹杂保举算法。这些保守的算法不需要颠末锻炼,沉点考虑用户之间的类似度和项目之间的类似度,评估用户对项目标乐趣度,进行排序后发生保举成果。这些算法无法表现用户潜正在的乐趣偏好,保举的成果多样性不脚[5]。同时,因为需要对用户的汗青行为数据进行阐发。用户的汗青数据决定着最终的保举成果。可是,用户的浏览、转发等行为存正在大量的稀少数据,通过这些高维稀少数据难以计较出精确的类似用户群体。当两个用户没有对不异的项目评分,他们配合评分的调集数为0,那么即便他们的乐趣偏好很是类似,利用基于用户的协同过滤算法却不克不及求得他们之间的类似值,同样对于两个项目标属性很是类似,可是却没有配合用户对其进行评过度的环境,也无法利用基于项目标协同汽锅算法求得项目之间的类似性,导致无法无效的保举。目前,因为对保举系统的用户和项目消息复杂,其行为数据和评分消息非常稀少,使得算法计较出的类似性不敷精确,进而无法精确计较出方针用户的比来邻人集,导致保举结果欠安。不只如斯,对于个性化旧事保举模子,利用基于文档词频或文档逆频次特征的算法无法精准权衡分歧类别旧事之间的类似性,导致保举的成果大同小异,无法挖掘用户的潜正在乐趣快乐喜爱,降低保举结果。

  针对上述问题,本文提出一种基于用户画像和内容词向量融合特征的个性化旧事保举模子,阐发用户的消息和汗青行为数据建立用户画像,并利用改良的Word2Vec词向量锻炼算法对旧事内容进行锻炼,无效权衡旧事之间的类似性,进而采用高效分类算法预测用户对其保举内容的行为——点击、不点击,并按照用户点击概率进行排序,将点击概率较高的旧事内容保举给用户,如许避免权衡用户高维稀少数据之间的类似性并能对旧事内容进行无效的特征提取,从而提高保举结果,可普遍使用于旧事门户网坐,例如人平易近网、新华网等。

  本文从分类角度考虑用户对保举旧事的立场,对其行为进行预测,可以或许无效操纵用户的汗青行为数据,包罗用户点击、转发、评价等,将用户的汗青点击行为为方针成果,可以或许有大量的数据进行算法锻炼,提高模子的精度。

  1、对用户的根基消息和用户汗青行为数据进行阐发,建立响应的用户画像,成立用户的偏好模子,获得用户的融合特征;

  2、采用改良的Word2Vec词向量锻炼算法对旧事语料库锻炼,获得愈加切确的旧事词向量,并对旧事的内容、题目、范畴、热度、时间等进行特征融合,从而获得响应旧事的融合特征;

  3、由分类算法对用户和旧事的融合特征进行锻炼建模,预测该用户对响应旧事的行为,并获得用户点击该旧事的概率;

  4、获得某一用户对浩繁旧事的点击概率后,利用Softmax归一化方式对其进行处置,获得用户点击概率较高的旧事,并保举给用户。

  本模子的全体流程如图1所示,模子采用的分类算法可采用目前进行且高效的深度丛林[6](gcForest)、XGBoost[7]等,从而对用户的行为进行预测。本模子的沉点和难点正在于用户画像模子的建立以及采用改良的Word2Vec词向量获取旧事的融合特征。

  用户画像,即用户消息标签化,是通过收集取阐发用户的社会属性、糊口习惯、浏览行为等次要消息数据,笼统出的标签化的方针用户模子,通过度析用户的所有标签消息可勾勒出该用户的立体“画像”。

  对于旧事保举,用户的相关数据次要有收集行为数据、办事内行为数据、用户内容偏好数据、用户天然数据这四类。收集行为数据次要包罗活跃人数、页面浏览量、拜候时长、点击率等;办事内行为数据包罗页面逗留时间、拜候深度、独一页面浏览次数等;用户内容便好数据包罗浏览内容、评论内容、互动内容、旧事类别偏好等;用户天然数据包罗性别、春秋、地区、教育程度、职业等。

  按照相关性准绳,进一步筛选和建立用户画像目标相关的数据维度,避免过多无用数据干扰阐发过程。对数据维度进行分化,构成字段集,再进一步将他们标签化及进行用户分群,建立根基用户画像。

  通过实正在的用户数据,成立用户的偏好模子,猜测用户的标签,包罗网坐忠实度模子,用户价值模子,用户活跃模子等等,通过模子的建立,对各用户贴上偏好标签。

  连系用户的各偏好标签以及天然特征、乐趣特征等,将相关数据进行特征融合,建立出可以或许无效暗示相使用户画像的特征向量。

  保守的词向量暗示体例为one-hot编码,即用一个很长的向量来暗示一个词,向量的长度为辞书的大小。向量的分量中该词对于正在辞书中的处为1,其他全为0。然而这种暗示体例有两个显著的错误谬误:(1)维数灾难的搅扰,且可扩展性差;(2)因为这种暗示体例,肆意两个词之间的词向量一直正交,不克不及很好地描绘词取词之间的类似性。

  目前最常用的词向量锻炼框架为Word2Vec[8]算法,其CBOW+Hierarchical Softmax模子认为锻炼样本数目脚够大时,上下文中的词对方针词预测的感化是线性衰减的。然而,正在现实环境中,上下文中的词对方针词的预测感化跟着取方针词距离的增大很快减小,不合适线性衰减纪律。为了寻找更接近实正在环境的衰减模子,文献[9]正在对语料库中热词的上下文进行统计阐发的根本上,采用若干种模子来拟合上下文对方针词预测感化的曲线,最初通过对例如针词的拟合误差,获得指数衰减拟合曲线对方针词的拟合误差最小。并通过尝试验证了指数衰减模子建立的词向量正在旧事分类使命中取得了更好的结果。因而,跟着上下文中的词取方针词距离的变化,上下文对方针词预测感化是以指数的形式衰减。同时,正在锻炼过程中,应合理的设置指数模子的超参数。

  辞旧丹鸡鸣盛世,送新瑞犬颂神州。新春佳节即将到临,人平易近网总编纂余清晰以及全国多家党报网坐总编纂配合为网友们奉上新春祝愿!祝大师新的一年万事顺意,节节前进!

  2017年,正在习总收集强国计谋思惟下,收集平安和消息化工做各项工做结实推进,网上从旋律昂扬,正能量强劲,各项法令律例进一步完美,收集空间愈加明朗,收集空间国际话语权和影响力较着提拔。

栏目新闻:
上一篇:bet36365王者荣耀》三英雄模型重塑:宫本武藏霸气
下一篇:没有了