Transcript 大数据的妙用
大数据的妙用 汪时奇 (Steven S. Wang), PhD CLS Bank - Vice President 大数据简介 • 数据 <- data <- 电脑可处理信息(资料) • 大数据研究领域: 1. 识其本(例:每人的多数网上行为均被记录成为数据) 2. 尽其用--data mining (本轮重心) 3. 防其患(前次重心) 妙用领域 1. 金融财经 2. 网上数据 1. 2. 3. 4. 广告 教学 购销 搜索 3. 网外数据及其它领域 4. Data mining 技术 1.金融财经 • 领域 • • • • • • 借贷信用计算 个人理财 风险评估-(各类)评级 无风险金融交易 (Arbitrage) 大数据误用 无发票服务 • 依据 • 直接数据 (小数据) • 行内间接数据( 中数据) • 行外数据 (大数据) 1.1金融财经案例1 --借贷 为贷款计算 • 偿付能力 • • • • 依据收入 依据财产(例:金融产品,房,车,首饰,等) 依据其它可抵押品(例: 保险, 契约,品牌, 信誉,秘密) 借贷能力(例:亲,友,能力,关系等) • 信用 • • • • • • 信用分数 详细信贷记录 所有收支,交易记录 组群特征记录 个性特征记录 其它个人行为记录 1.2金融财经案例2 --个人理财 • 目标 • • • • • • 高收益 低亏损风险 高流动性(例如,意外用大钱时的低损失) 低税负 低查税风险 高退休保障 1.2金融财经案例2 --个人理财2 • 个人特征 • • • • • • • • • • • 收入的数额及稳定性 财产及其可流动性 负债及其违约受罚风险 纳税状况 各退休后收入 各保险细节 遗产(收,供,税) 风险容忍程度 存贷习惯 应变应灾能力 各阶段目标 1.2金融财经案例2 --个人理财3 • 公共数据 • Bloomberg • Back Office -- 评级, 行业趋势, 地区走势, 等等. • PerSecurity -- ETF量价具体分析, 关键公司行为, 等等. • • • • Reuter – Foreign currency 等等 Telekurs 提供免费综合财产管理服务 其它各政府及公司的种种统计数据 • 如:制造公司的用电量变化表(产) • 如:热门餐饮的客流量变化表(销) • 如:人口年令结构的变化 1.3风险评估-例:评级 参考标准评级,加上自我评估。 • 评级机构: Moody, S&P, Fitch,… . • Fixed Income • 评级与利率及价格关系 • Gov. Bond, Corp. Bond (e.g. 垃圾债市场), … • Equity • ETF • Exchange based (e.g. NYSE) • OTC • Derivative CDO, CDS, MBS, … • Mutual Fund 1.4金融财经案例3 -- Arbitrage • 利--无风险(几乎) •例 • FX – e.g. ¥100=$1 at NYC, ¥99=$1 at Tokyo at a moment • Stock – IBM £120 at LDN, $191 at NYC, $1.6= £1 => (120*1.6)192vs191 •法 • 瞬时价格数据(bid & ask) • Google, Yahoo, … 只能看不能下载 • Bloomberg PS or Reuter 太贵 • 交易费数据 • 成交价格上下限及各价概率 1.4金融财经案例4 --大数据误用 股票分析重要依据 1. 行业趋势. 例:石油隐现危机 2. 地区走势. 例:欧元区走强 3. 内部信息(违法). 例:收购,官司,增债, 现金流 … 4. 价量历史 若忽略前3项,则个股价量历史数据与有惯性的随机数据相近。 随机数据预测是毫无意义的。 故如下预测意义不大: • 个股的K线分析法 • 个股的其它某些热门量化预测法(所谓的”技术分析法”) 1.4金融财经案例5 --无发票服务 • 退,换 • Warrantee • 更新(廉价或免费) 2. 网上软件及工具 1. 2. 3. 4. 网上广告 网上教育 网购 搜索 2.1 网上广告 • 广告效果评估 • • • • • • 广告点击率 点击日期(近期更重要)( 中数据) 点击后停留时间 停留时间内鼠标移动率(大数据) 是否点击广告内关键联接(大数据) 点击者(家庭)背景及心理倾向性(大数据) • 网上对口广告 • 直接相关( 中数据) • 间接相关(大数据) 2.2 教育 • 校系评估 • • • • • • • • 依据现成排名 (不理想; 如捐款额) 录取率 统考成绩及毕业率 学生及家长评价 科研水平 毕业后平均收入 雇主口碑 毕业后成就(大数据) • 网上教材 • On line 教材 • 买廉价教材 • Google, 百度, Wikipedia 2.3 购销 1 目标 •购 • 追求最高性价比 • 追求最高质量(如治重疹药) • 追求各复杂条件的最优 •销 • • • • • 追求最高价格 追求最大销量 追求最高市场占有率 追求最佳品牌 追求最佳服务信誉 2.3 购销 2 手段: 依据网上及各数据库数据 • 购 • • • • 质量评估及统计 卖家声誉评估及统计 售后服务评估及统计 消费者反馈信息 • 销 • • • • • • 群体购买欲 群体价值观 群体购买力 群体消费习惯及心理倾向性或错觉 群体性价错觉(例:Amr. Exp. 0.5% & 5%) 个体上述消费特征( 超大数据) • 共:地区物流能力(中国特色) 2.4 搜索 • 多数网站均有搜索功能 • 搜索结果排序是关键 • 例: ant (Google, Bing, 百度) • 排序依据(加权优化) • • • • • • • • • 用户(IP)是否搜索过该关键词(小数据) 用户地址(小数据) 点击率(小数据) 点击日期(近期更重要)( 中数据) 点击后停留时间(也许接电话)( 中数据) 用户搜索相关内容及次数( 中数据) 用户搜索相近内容及次数(大数据) 目标网站操作量( 大数据) 用户搜索拼写相近关键词的相关及相近内容与次数( 超大数据) • 横向关联(例:Google发现疫情) 3.1 网外数据 • 电话(手机) • 对方详情 • 时间 • 时长 • 用电量(例: 李总理凭其估经济侧面) • 用水,煤,煤气,等资源量 • 交通运输统计 • 人口资料统计 • 其它统计(例:病例,医药实验等) 3.2 其它领域 • 医药(预防,治疗,药品) • 公路交通(摄像头数据) • 铁路调度(人流,物流统计) • 政策--人口,房改,城管,… • 城市建设规划(电,气,水,商场,餐饮,旅馆,…) • 航空票价预测 • 仓储,物流 4. Data Mining 技术 • 本质--从数据库大数据中找到有用信息 • Methods • AI (Artificial Intelligence 人工智能) • 各类优化 • Machine Learning Algorithms • Statistics • Database Systems • 可行性 • 效率 • 成本 4.1 Machine Learning Algorithms • Algorithm types/paradigms • • • • Supervised – from known in-out sets to generalize rules Unsupervised – from known in & desired out to discover structures in data Semi-supervised Others like Reinforcement, Transduction, Developmental, … • Neural network • Case-based reasoning • Lazy learning & Eager learning • Decision tree • AODE, Bayesian statistics, Group method, Random forest, PAC, … 4.2 Neural network 4.3 Case-based reasoning 4R process: • Retrieve • Reuse • Revise • Retain 4.4 Decision tree Tree models: • Classification Trees • Regression Trees • Pros: • Simple • Robust • Cons: • NP-Complete (nondeterministic polynomial) • Over-complex trees 4.5 AODE (Averaged One-Dependence Estimators) Probabilistic classification learning 结束语 • 效果(扩妙用,避误用) • 成本(数据资金,速度,容量) • 未来(便扩展,避隐患) • Open to extension; “Close” to modification. • Strengthen security. • 技术 • • • • 统计,概率 Data mining Database Application