Web UI** *******

Download Report

Transcript Web UI** *******

基于回归分析的VoD视
频流行度预测的研究
 刘源
 专业:计算机应用技术
 导师:王宗敏
 指导老师:李润知
主要内容
 背景介绍
 回归分析方法
 流行度预测方法
 实验数据采集
 数据处理与分析
 缓存替换算法
 总结与下一步工作
2
背景介绍
 现状
 当前网络视频流量约占互联网总流量的八成
 网络视频占用存储空间大,支持视频VOD对带宽、延迟要
求高
 当视频服务遇见云服务
 可灵活调整的存储空间
 可灵活调度的视频数据
3
背景介绍(2)
 问题:在分布式云存储中,各站点为它所处在域的
用户提供服务,而站点的储存空间和带宽资源有限
 需要预取可能会流行的视频
 需要对视频流行度的研究
 需要缓存替换算法,替换掉“过时的”视频
4
回归分析方法(1)
𝑐
−𝐶
 衰减函数法[5]:𝑓𝑖+1 𝑝 = 𝑓𝑖 𝑝 ∗ 2
 回归分析法
+1
 统计学上分析数据的方法,主要是希望探讨数据之间是否
有一种特定关系,目的在于找出一条最能够代表所有观测
资料的函数
 回归模型:将因变量𝑦和一个关于自变量𝑥和未知参数𝑑的
函数关联起来。 𝑦 ≈ 𝑓 𝑥, 𝑑 = 𝑦
 参数估计:最小化残差平方和 𝑆𝑆𝐸 = (𝑦 − 𝑦)2
5
回归分析方法(2)
 几种常见的回归模型
 线性:𝑦 = 𝑎 + 𝑏𝑥
 指数型:𝑦 = 𝑎𝑒 𝑏𝑥
 幂型:𝑦 = 𝑎𝑥 𝑏
 相加型:𝑦 = 𝑓1 𝑥1 + 𝑓2 𝑥2 𝑟
 指数和指数相加型:𝑦 = 𝑎1 𝑒 𝑏1𝑥1 + 𝑎2 𝑒 𝑏2𝑥2 𝑟
 指数和幂相加型:𝑦 = 𝑎1 𝑒 𝑏1𝑥1 + 𝑎2 𝑥2 𝑏2 𝑟
6
流行度预测
 预测视频流行度的几种策略
 固定的回归模型(FRS):𝑦𝑝 = 𝑦
𝑚0 ,𝑑0 (𝑖)
 可以更新的回归模型 (CRU):𝑦𝑝 = 𝑦
𝑚1 ,𝑑1 (𝑖)
 参考历史数据的固定回归模型(HU[3]):
𝑦𝑝 = 𝑦
𝑖 ∙ 𝑎 + 𝑦0
𝑖 ∙ 1−𝑎 𝑠
𝑚0 ,𝑑0
𝑚0 ,𝑑0
𝑚1 ,𝑑1
𝑚0 ,𝑑0
其中𝑎 = 𝑛 𝑛0 ,𝑠 = 𝑛𝑖=1 𝑦(𝑖) 𝑛𝑖=1 𝑦0 (𝑖)
 参考历史数据的可以更新的回归模型 (CRHU[3]) :
𝑦𝑝 = 𝑦
𝑖 ∙ 𝑎 + 𝑦0
𝑖 ∙ 1−𝑎 𝑠
7
数据采集
 土豆网的视频开放平台
 可以通过URL命令来获取返回结果
 通过查询,获得视频的Codes集
 获取视频信息
http://api.tudou.com/v3/gw?method=item.info.get&appKey=m
yKey&format=xml&itemCodes=oR16C1xZDRM&ceiling=10
 通过Tiny XML解析器的接口提取播放次数
 按时间与播放次数对应的格式存入文本文件
 获取了土豆网20个分类2000多个视频两个月的播放
次数(每天两次)
8
数据采集(2)
Getplaytime (for VideoObject Vi)
While(not finished)
{
//从文本文档中读取需要获取的土豆网的视频code列表,生成请求命令
sreq=ReadCodeSet(Vi);
//建立socket,与土豆网API服务器建立链接,发送请求命令,获得返回的
xml结果
resultdata=Send(sreq);
if(resultdata不为空)
{
//在返回的xml结果中查找视频的播放次数
playtime=Findplaytime(resultdata);
//在文本文档中存储当前时间和视频的播放次数
StoreCodeSet(playtime);
}
}
9
数据处理(1)
 用MATLAB对数据文本文件进行处理、分析
 获取新增请求次数:总播放次数相减
10
数据处理(2)
 数据去周期化: 𝑦𝑖 =
𝑖
𝑗=𝑖−𝑙+1 𝑦𝑗
𝑙
, 𝑖 = 𝑙, 𝑙 + 1, … , 𝑛
11
数据分析
 由数据计算出几种不同类型的回归模型函数𝑦(𝑥)
 计算出标准化残差平方和𝑆𝑆𝐸 = (𝑦 − 𝑦)2
 选出回归模型
𝑆𝑆𝐸
线
性
指数型
幂型
指指加
型
指幂加
型
最优模
型
剧情
1
0.3898
2.770
0
0.0580
0.0472
指幂加
型
喜剧
1
0.7002
0.530
2
2.8056
2.8064
幂型
动作
1
0.6815
0.352
4
1.9134
1.9134
幂型
卡通
1
0.6178
3.132
0
0.1545
0.1980
指指加
型
爱情
1
0.4158
8.151
1
1.0083
1.0561
指数型
恐怖
1
0.6169
2.703
8
1.9438
0.8400
指数型
12
数据分析(2)
13
缓存替换算法
 基于流行度增益的缓存替换算法
 考虑当前流行度 𝑅𝑒𝑣𝑝 𝑔 𝑣
= 𝑦(𝑥)
 考虑流行度变化趋势𝑅𝑒𝑣𝑡 𝑔 𝑣
 总缓存增益 𝑅𝑒𝑣 𝑔 𝑣
=
𝑥=𝑥0
𝑑 𝑦(𝑥)
𝑑𝑥 𝑥=𝑥0
= 𝑝𝑝 𝑅𝑒𝑣𝑝 𝑔 𝑣
+ 𝑝𝑡 𝑅𝑒𝑣𝑡 𝑔 𝑣
 替换算法流程
 计算给定媒体对象的缓存增益
 能容纳下要缓存的文件时,删除缓存中增益最小的文件
 将要缓存的文件存入缓存
14
总结
 几种回归模型
 对流行度预测的几种策略
 获取视频网站上视频播放次数信息的一种方法
 对播放次数数据进行处理、分析
 一种基于流行度预测的缓存替换算法
15
下一步工作
 改进缓存替换算法
 计算其复杂度
 与其他算法进行对比优劣
 进行模拟验证
 验证缓存替换算法是否能在线动态预测
16
参考文献
[1]B.Hayes,Cloud computing[J].Communications of the
ACM,2008,51(7):9-17
[2]郭红方,视频点播内容分发关键技术研究[D],郑州大学,2012:83-85
[3] http://zh.wikipedia.org/wiki/回归分析
[4]Ng, D.M.P.; Wong, E.W.M.; Ko, K.T.; Tang, K.S.,"Trend analysis
and prediction in multimedia-on-demand systems,"Communications,
2001. ICC 2001. IEEE International Conference on, vol.4, no.,
pp.1292-1298 vol.4, 2001
[5]“tudou”,http://www.tudou.com
[6]Jin S, Bestavros A. Popularity-aware Greedy Dual-size Web Proxy
Caching Algorithms[C]//Proceedings of ICDCS. 2000-06.
17
Q&A
请各位老师、同学提问!
感谢您提出的宝贵意见!
18