一种深度多维度流量语义分析方法,使用有监督的深度学习模型来训练网络获取url页面的特征向量,并综合考虑用户之间的语义关系来实现流量分析;对于网站日志的预处理,采用mapreduce筛选掉不符合条件的日志数据,其中包括爬虫日志数据和其他网站的数据;对于构建出来的浏览路径,设置阈值为n,筛选掉长度小于n的路径;对于网站url页面的文本处理,采用词向量的分布式表示方法得到url页面的向量,利用url页面嵌套来描述用户浏览行为的语义信息;采用聚类方法对用户的浏览路径进行聚类,通过聚类来分析用户的分布情况和用户群之间的差异,聚类使用t?SNE降维来达到直观的向量空间聚类效果。
扫码关注,查看更多科技成果