显示广告交易平台中的数据挖掘

Download Report

Transcript 显示广告交易平台中的数据挖掘

显示广告交易平台中的数据挖掘
吴明辉 (Founder & CTO, 秒针公司)
2012/05/26
分享内容
• 显示广告背景知识介绍
• 首届秒针显示广告交易竞赛
• 显示广告交易中的技术挑战
什么是显示广告
互联网之外的显示广告
封面广告
小全版
孤岛广告
对联式广告
平面信息介绍
5个连续调幅 (高=2cm),加上产品照(5*5cm) + 硬广告
音乐时空
当代歌坛
时尚中国旅游(副刊)
N3300 5个主要功能
时尚中国旅游
平面信息介绍
水印广告
南方都市报
新快报
平面信息介绍
建筑物外墙透明贴
香港国际金融中心二期 – 金融时报
前
只要充分利用新的技术,就能创造奇迹
后
新的技术都能让媒体被充分的利用(投影)
電影 “蜘蛛俠”, 香港
显示广告的核心
• Reach,有多少人看过
• Target
• Frequency,看了多少次
• Creative
显示的结果
• 点击
• CPC
• 注册/下载/上传简历/打电话/搜索/…
• CPA
• 销售/充值
• CPS
显示广告与搜索的关系
显示广告与搜素行为之间的关系
• 目标:研究显示广告的展示与用户搜索行为之间关系
Online advertising exposure data
Search behavior data
(Reach & Freq)
Miaozhen System
400 Million Internet
Users behavior in China
Online Behavior
Audit Panel
Ad exposure increasing category search is only effective
within 2 days.
Ad exposure increase brand search more not only
effective within 2 days
中国互联网广告情况
数据来自:易观智库;2012年4月
显示广告生态系统
一个互联网显示广告被拍卖的基本流程
首届秒针显示广告交易竞赛
秒针显示广告交易竞赛规则
• 每个参赛者将作为一个DSP代表CPS广告主去竞买
• 起点:相同金额的广告预算,获得收入最大者获胜
• 所有收益归参赛者
秒针广告交易竞赛中的角色
秒针显示广告交易竞赛
• 数据
• 秒针提供该广告主历史的竞拍数据,以及相应的转化数据
• 秒针提供消费者的历史行为数据
• 时间
• SEWM2013
• 竞赛系统和细则正在搭建和细化中,敬请期待!
显示广告交易中的技术挑战
一个互联网视频广告被拍卖的基本流程
DSP要解决的核心问题
• 在预算一定的情况下,如何最大化广告主的ROI?
• 如果一个广告主只有一个产品,广告主如何根据不同的媒体方和
不同的用户来选择竞价策略?
• 如果一个广告主有多个类似产品,如何分配预算以及如何选择出
价策略使得广告主在一段时期内的收益最大?
广告点击率/转化率的预测
• 预测一个给定广告的点击率/转化率
• 老广告
• 新广告
• 媒体方
• 增加对预期收益预测的准确性,最大化其效用
• 提高用户满意度
• 吸引广告主在媒体上投放广告
• 广告主
• 优化竞价策略,最大化其效用
• 根据广告点击率,优化广告物料设计
挑战 1: 如何准确地预测一次曝光的点击率/转化率?
• Input
• 给定一次广告曝光
• 对应访问者和广告的历史数据
• Output
• 预测该广告曝光的点击率/转化率
• 挑战
• 新广告,没有历史数据
• 影响广告点击率/转化率的因素非常多,如何准确
地预测一个给定广告的点击率/转化率?
影响广告曝光转化的因素
• 上下文内容
• 网站->频道->页面->广告位
• 所处周围环境
• 曝光实时信息
• 时间
• IP地址/地域
• 客户及创意
• 品牌/客户历史推广情况
• 创意及制作水平
• Landing page
• 访问用户信息
• DMP
一个互联网显示广告被拍卖的基本流程
DMP (Data Management Platform)
• 数据管理平台,收集并管理海量的数据
•
•
•
•
用户数据(浏览,点击,登陆,购买)
媒体数据 (网站,频道,广告位)
IP库
…
• 广告的定向投放
• 地域定向 (geographic targeting)
• 人群定向 (audience targeting)
• 行为定向 (Behavior targeting)
人群定向的基本概念
• 用户属性和分类
•
•
•
•
•
年龄
性别
受教育水平
月收入水平
职业
• 样本数据
Panel ID
年龄
性别
受教育水平
月收入水平
职业
1
16
男
高中
<2000
学生
2
35
女
博士
10,000
教师
3
55
男
初中
80,000
中石油经理
人群定向:这个人是年龄在18-25,月收入在1万以上的女性吗?
• 人口属性的分类/预测
Step 1:Training phase
Panel
Classification
Algorithm
Model
Step 2: Classification phase
Test data
Classify/
Predict
Yes/No
挑战 2: 如何精准的对所有中国网民进行分类?
• 问题
• 如何准确地对所有中国网民进行分类?
• Input
• 一定量的样本数据
• 所有网民的上网行为数据
• Output
• 所有网民的人口属性
• 挑战
• 样本数据的量通常比较少
• 网民的上网行为不全
• Cookie清除带来的信息损失
秒针广告监测和评估的挑战
• 如何实时地评估在线广告的品牌效果
• 传统广告主
• 新广告主
• 如何防止作弊
• CPM
• CPC
• CPA
防作弊(Anti-Fraud)
• 常见的作弊手段
•
•
•
•
•
•
点击作弊
曝光作弊
IP分布异常
时间分布异常
光有点击没有曝光
URL,用户访问指纹(浏览器,操作系统)异常
• 浏览器,操作系统信息为空或绝大多数都相同
• 来源异常
• 点击或者曝光的referrer可以标记点击或曝光的来源页面,如果大量来源
集中在某一页面,且不是广告所在web页面,可能存在媒体在其他流量大
的地方(例如BBS)设置隐藏页面来充当点击和曝光
• ……
挑战 3: 如何有效地设计反作弊算法?
• Input
• 所有用户的访问日志
• Output
• 识别出虚假流量
• 挑战
• 现在的作弊手段越来越高明,几乎完全可以模拟真实用户
的行为,如何把这些作弊流量识别出来?
• 道高一尺,魔高一丈!
显示广告交易中的数据挖掘挑战总结
• 如何精准地给所有Cookie进行分类标记
• 如何准确地预测一次曝光的点击率/转化率
• 如何实时地有效地评估在线广告的品牌效果
• 如何有效地应用数据挖掘技术进行反作弊
还有一些工程挑战
• 海量数据的存储和并行计算
• 高并发访问所带来的网络IO压力
• 计算效率
• 冗余备份和灾难恢复