Transcript 大数据的妙用
大数据的妙用
汪时奇 (Steven S. Wang), PhD
CLS Bank - Vice President
大数据简介
• 数据 <- data <- 电脑可处理信息(资料)
• 大数据研究领域:
1. 识其本(例:每人的多数网上行为均被记录成为数据)
2. 尽其用--data mining (本轮重心)
3. 防其患(前次重心)
妙用领域
1. 金融财经
2. 网上数据
1.
2.
3.
4.
广告
教学
购销
搜索
3. 网外数据及其它领域
4. Data mining 技术
1.金融财经
• 领域
•
•
•
•
•
•
借贷信用计算
个人理财
风险评估-(各类)评级
无风险金融交易 (Arbitrage)
大数据误用
无发票服务
• 依据
• 直接数据 (小数据)
• 行内间接数据( 中数据)
• 行外数据 (大数据)
1.1金融财经案例1 --借贷
为贷款计算
• 偿付能力
•
•
•
•
依据收入
依据财产(例:金融产品,房,车,首饰,等)
依据其它可抵押品(例: 保险, 契约,品牌, 信誉,秘密)
借贷能力(例:亲,友,能力,关系等)
• 信用
•
•
•
•
•
•
信用分数
详细信贷记录
所有收支,交易记录
组群特征记录
个性特征记录
其它个人行为记录
1.2金融财经案例2 --个人理财
• 目标
•
•
•
•
•
•
高收益
低亏损风险
高流动性(例如,意外用大钱时的低损失)
低税负
低查税风险
高退休保障
1.2金融财经案例2 --个人理财2
• 个人特征
•
•
•
•
•
•
•
•
•
•
•
收入的数额及稳定性
财产及其可流动性
负债及其违约受罚风险
纳税状况
各退休后收入
各保险细节
遗产(收,供,税)
风险容忍程度
存贷习惯
应变应灾能力
各阶段目标
1.2金融财经案例2 --个人理财3
• 公共数据
• Bloomberg
• Back Office -- 评级, 行业趋势, 地区走势, 等等.
• PerSecurity -- ETF量价具体分析, 关键公司行为, 等等.
•
•
•
•
Reuter – Foreign currency 等等
Telekurs
提供免费综合财产管理服务
其它各政府及公司的种种统计数据
• 如:制造公司的用电量变化表(产)
• 如:热门餐饮的客流量变化表(销)
• 如:人口年令结构的变化
1.3风险评估-例:评级
参考标准评级,加上自我评估。
• 评级机构: Moody, S&P, Fitch,… .
• Fixed Income
• 评级与利率及价格关系
• Gov. Bond, Corp. Bond (e.g. 垃圾债市场), …
• Equity
• ETF
• Exchange based (e.g. NYSE)
• OTC
• Derivative
CDO, CDS, MBS, …
• Mutual Fund
1.4金融财经案例3 -- Arbitrage
• 利--无风险(几乎)
•例
• FX – e.g. ¥100=$1 at NYC, ¥99=$1 at Tokyo at a moment
• Stock – IBM £120 at LDN, $191 at NYC, $1.6= £1 => (120*1.6)192vs191
•法
• 瞬时价格数据(bid & ask)
• Google, Yahoo, … 只能看不能下载
• Bloomberg PS or Reuter 太贵
• 交易费数据
• 成交价格上下限及各价概率
1.4金融财经案例4 --大数据误用
股票分析重要依据
1. 行业趋势. 例:石油隐现危机
2. 地区走势. 例:欧元区走强
3. 内部信息(违法). 例:收购,官司,增债, 现金流 …
4. 价量历史
若忽略前3项,则个股价量历史数据与有惯性的随机数据相近。
随机数据预测是毫无意义的。
故如下预测意义不大:
• 个股的K线分析法
• 个股的其它某些热门量化预测法(所谓的”技术分析法”)
1.4金融财经案例5 --无发票服务
• 退,换
• Warrantee
• 更新(廉价或免费)
2. 网上软件及工具
1.
2.
3.
4.
网上广告
网上教育
网购
搜索
2.1 网上广告
• 广告效果评估
•
•
•
•
•
•
广告点击率
点击日期(近期更重要)( 中数据)
点击后停留时间
停留时间内鼠标移动率(大数据)
是否点击广告内关键联接(大数据)
点击者(家庭)背景及心理倾向性(大数据)
• 网上对口广告
• 直接相关( 中数据)
• 间接相关(大数据)
2.2 教育
• 校系评估
•
•
•
•
•
•
•
•
依据现成排名 (不理想; 如捐款额)
录取率
统考成绩及毕业率
学生及家长评价
科研水平
毕业后平均收入
雇主口碑
毕业后成就(大数据)
• 网上教材
• On line 教材
• 买廉价教材
• Google, 百度, Wikipedia
2.3 购销 1
目标
•购
• 追求最高性价比
• 追求最高质量(如治重疹药)
• 追求各复杂条件的最优
•销
•
•
•
•
•
追求最高价格
追求最大销量
追求最高市场占有率
追求最佳品牌
追求最佳服务信誉
2.3 购销 2
手段: 依据网上及各数据库数据
• 购
•
•
•
•
质量评估及统计
卖家声誉评估及统计
售后服务评估及统计
消费者反馈信息
• 销
•
•
•
•
•
•
群体购买欲
群体价值观
群体购买力
群体消费习惯及心理倾向性或错觉
群体性价错觉(例:Amr. Exp. 0.5% & 5%)
个体上述消费特征( 超大数据)
• 共:地区物流能力(中国特色)
2.4 搜索
• 多数网站均有搜索功能
• 搜索结果排序是关键
• 例: ant (Google, Bing, 百度)
• 排序依据(加权优化)
•
•
•
•
•
•
•
•
•
用户(IP)是否搜索过该关键词(小数据)
用户地址(小数据)
点击率(小数据)
点击日期(近期更重要)( 中数据)
点击后停留时间(也许接电话)( 中数据)
用户搜索相关内容及次数( 中数据)
用户搜索相近内容及次数(大数据)
目标网站操作量( 大数据)
用户搜索拼写相近关键词的相关及相近内容与次数( 超大数据)
• 横向关联(例:Google发现疫情)
3.1 网外数据
• 电话(手机)
• 对方详情
• 时间
• 时长
• 用电量(例: 李总理凭其估经济侧面)
• 用水,煤,煤气,等资源量
• 交通运输统计
• 人口资料统计
• 其它统计(例:病例,医药实验等)
3.2 其它领域
• 医药(预防,治疗,药品)
• 公路交通(摄像头数据)
• 铁路调度(人流,物流统计)
• 政策--人口,房改,城管,…
• 城市建设规划(电,气,水,商场,餐饮,旅馆,…)
• 航空票价预测
• 仓储,物流
4. Data Mining 技术
• 本质--从数据库大数据中找到有用信息
• Methods
• AI (Artificial Intelligence 人工智能)
• 各类优化
• Machine Learning Algorithms
• Statistics
• Database Systems
• 可行性
• 效率
• 成本
4.1 Machine Learning Algorithms
• Algorithm types/paradigms
•
•
•
•
Supervised – from known in-out sets to generalize rules
Unsupervised – from known in & desired out to discover structures in data
Semi-supervised
Others like Reinforcement, Transduction, Developmental, …
• Neural network
• Case-based reasoning
• Lazy learning & Eager learning
• Decision tree
• AODE, Bayesian statistics, Group method, Random forest, PAC, …
4.2 Neural network
4.3 Case-based reasoning
4R process:
• Retrieve
• Reuse
• Revise
• Retain
4.4 Decision tree
Tree models:
• Classification Trees
• Regression Trees
• Pros:
• Simple
• Robust
• Cons:
• NP-Complete (nondeterministic polynomial)
• Over-complex trees
4.5 AODE (Averaged One-Dependence Estimators)
Probabilistic classification learning
结束语
• 效果(扩妙用,避误用)
• 成本(数据资金,速度,容量)
• 未来(便扩展,避隐患)
• Open to extension; “Close” to modification.
• Strengthen security.
• 技术
•
•
•
•
统计,概率
Data mining
Database
Application