大数据深度分析、挖掘美、中、全球专利信息

Download Report

Transcript 大数据深度分析、挖掘美、中、全球专利信息

大数据深度分析、发掘美国、
中国专利信息
索意互动(北京)信息技术有限公司
2014.9
为什么大数据分析
•大数据核心是数据的相关性!
•专利文本内容都不可计算!
•专利文本内容都必须人工阅读来理解!
现有专利分析以专利号为分析精度单位;
文本间都是离散、孤立、互不相关!
800万组技术特征结构化表示
930万中国专利申请、授权文本
800万个知识型传感器
延伸每一篇专利文本
大数据分析拓展分析深度/广度
• 大数据分析就是在现有分析方法上架设了,
– 一个800万倍显微镜,可以进行更深、更细微层
次的系统性分析;
– 一个800万倍放大镜,可以进行更广、更宽视角
的技术领域大布局分析;
• 通过复杂计算,发现隐藏在大数据中的各
种潜在相关模式,而这些淹没在近与无穷
的大数据中的相关模式是无法被人通过有
限的检索策略与传统分析方法发现!
大数据分析IBM美国专利
. IBM,专利管理,国际著名;
. 20个大数据分析变量,量化分析IBM
专利库;
. 与传统最多2个分析视角不同,大数
据分析20个变量,20个分析视角,无
限分析组合;
(IBM去重后共120,807美国授权、申请)
35
IBM-top3-apd-acc
30
25
专利度
2008年非正常申请
20
15
10
5
0
20 25 18 20 25 18 20 25 21 20 25 18 20 18 1 20 18 17 20 18 19 20 18 19 20 18 30 20 18 30 20 18 21 20 18 24 20 18 12
2012
2011
2010
• 我们发现IBM专
利于2008年出现
故障,发生903
篇专利度为1;
• 这些专利以比正
常高出22倍被放
弃;
• 以此为戒,IBM
从此严格管理专
利申请的专利度,
从2008年的
20/18/1,一改为
连续4年20/25/18。
2009
2008
2007
2006
2005
专利度1的无
效率比正常
高出22倍
2004
2003
2002
2001
2000
SONY-top3-apd-acc
专利度1的无
效率为正常
一倍
2005,SONY
申请出废品
精确量化世界专利质量
• 大数据分析,我们发现2个指标可精确量化评估专利
质量,
• 专利度:申请保护专利权个数,为越大越好;
• 特征度:技术限制特征数,为越小越好;
• 其中,特征度是根据Patentics语义模型计算获得,
• 中文模型表示全部中国专利全文,共800万维度;
• 英文模型表示全部世界专利全文,共656万维度;
高精度语义特征向量表示;
特征度-描述人类创新的本征量
1.
2.
3.
4.
描述人类发明创新可以量化!
创新量化与语言无关!
创新量化是个正态分布!
正态分布可以控制的!
关注这些专利,
可能原创性高
质量控制,关注纂写这
些专利的代理
质量控制,关注纂写这
些专利的代理
现有专利质量管理:
今天u1,u2申请x1,x2篇,3年后u1驳回、撤回率都高于u2,只能换
u1,但申请人的申请全报废了;
Patentics专利质量管理:
今天u1代理申请x1篇专利度为m1,特征度为n1,u2代理申请x2篇专
利度为m2,特征度为n2的专利,其中m2>m1,n2<n1,而且,m2,
n2都优于行业(IPC小组)标准,m1,n1都低于行业(IPC小组)标准,u2
优于u1,考虑接受u2,要求u1重新返工,直至合格为止;
美国专利-年度-专利度-特征度
大数据分析发现美国创新发明质量逐年上升,主要体现在专利度上升,特征度下降
2013
特征度
从21.28-14.83 1972
1970
1971
25
2012
2011
2010
2009
20
1973
2008
1974
2007
15
1975
2006
1976
2005
10
1977
5
1978
1979
2004
专利度
从8.73-17.62
2003
2002
0
1980
2001
1981
2000
1982
1999
1983
1998
1984
1997
1985
1996
1986
1995
1987
1994
1988
1989 1990
1991 1992
1993
专利度
特征度
专利度-趋势
特征度-趋势
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
美国按年-专利度-特征度
世界科技创新大趋势:专利度上升(应用从单一到多样)
特征度下降(限制从复杂到简单)
25
20
15
10
5
0
大数据分析进入中国的外国专利
• isd/1984-2014 andnot ns/中
国,得所有国外进入中国专
利申请,为1,314,179;
松下在中国申请的美
国同族专利39888篇
• isd/1984-2014 andnot ns/中
国 and fmdb/us and o/pat,
得所有国外进入中国的美国
同族,为1,441,245;
• 极大部分国外进入中国的申
请,都是通过美国进入中国
的;
松下美国申请与中国申请按代理分组
松下在中国申请41505篇
中英文专利大数据分析
131万中国同族申请
具有相同发明(131
万/144万),通过大
数据分析得,
•进 入 中 国 申 请 采
用中文表示:
专 利 度 : 17.23 ;
特 征 度 : 16.68 ;
•美 国 申 请 采 用 英
文表示;
专 利 度 : 17.97 ;
特 征 度 : 16.63 ;
证明专利质量指标
与语言表示无关,
是本征量!
144万美国同族申请
美国同族
英文表示
相同发明
采用中、
英文表示
中、英文专利审查大数据分析
中国申请文本/中国授权文
本1,442,556篇,通过大数
据分析得,
美国申请文本/美国授权
文本1,835,661篇,通过
大数据分析得,
•申请文本(审查前):
专利度:11.53;
特征度:19.99;
•申请文本(审查前) :
专利度:21.24;
特征度:14.66;
•授 权 文 本 ( 审 查 后 ) :
专利度:8.86;
特征度:25.59;
•授权文本(审查后) :
专利度:17.14;
特征度:17.99;
中国审查质量量化
专利度降2.67;
特征度(限制)增5.6
美国审查质量量化
专利度降4.15;
特征度(限制)增3.33
结论:中国审查要比美国审查严格
2003-2014中美授权大数据分析
三组专利对比分析:
1. 231万美国专利;
20个专利度基本
都是欧美公司
2. 国外进入中国56万中国专利;
3. 国内79万中国专利
大数据分析变量
公开年/专利度TOP3
2003-2014按年,根据专利度分类,
统计前3位最多数量的专利度;
美国从开始就是专利度20为最多(主
要是欧美申请人),而早期日本申请
人以10个居多,2010年开始,专利度
提高成趋势,20、18、19为最前3
位;
早期10个左右
专利度都是日
本公司居多
国外进入中国授权:
国内授权:
国内,1个专
利度为最多
国外进入中
国,10个左右
专利度为最多
特征度高
专利度
趋势减小
专利度
趋势增大
专利度与
无效率成反比
2011-2014生产专利度1
的专利的前5代理与申请
人
2011-2014专利度为1的国内申请分析
• 2011-2014发明申请中专利度为1共有166,414
篇;
• 已审查结案47,879篇,其中授权17,475篇;
• 授权率17475/47879=36.5%;
• 还有118,535申请待审;
• 按36.5%授权率,估计43,265篇将被授权;
2011-2014专利度为1的国内申请分析
•专利度为1申请文本:17,475篇、特征度43.12;
•专利度为1授权文本 :17,339篇、特征度45.65;
•专利度为5申请文本:23,309篇、特征度25.20;
•专利度为5授权文本: 17,339篇、特征度34.33;
•没有被授权专利度为1申请文本:30,404篇、特征度
22.4。
国内、国外、美国授权特征度比较
• 2000-2014国内授权发明专利823,269篇,特征度发散;
• 2000-2014国外进入中国授权619,416篇,特征度稳定;
• 2000-2014国外进入中国授权在美国同族545,405篇,特征度稳定;
• 中美审查比较,中国更严格,相同发明,在中国授权要比在美国
授权的特征度(限制)多2.5;
大数据分析下的专利质量控制
• 借助大数据分析,我们可以对国家、地
区、行业、企业、代理的专利信息进行无
限细分、深度剖析;
• 就像生产线上产品,每一件专利从申请-引
用-授权-被引用-维持-过期,采用多组数值
化指标,进行精细管理、监视;
• 数值化指标可按技术领域监控,如H04L的
国内申请的行业标准为10.47/21.43,国外
进入中国21.2/15.75,美国20.54/16.19;
• 一旦发现大幅偏离标准,就应该拒绝接受
废品,而不是最后报废成品!
大数据分析华为代理管理策略
•
华为花费巨资在专利管理,特别是根据代理申请的一些指标确定代理取舍;
•
风险是要等到代理性能下降,往往损失已经造成;
•
大数据分析试图通过计算来预测华为代理取舍策略;
•
被大数据分析标出浅红色块的代理,基本都被华为舍去;
•
任何用户包括申请人、代理所只需大数据分析实时监视申请、OA质量,提前采取
措施,避免损失,保证质量!
华为国际分类小组前10 与中兴竞争分析
点击浏览对应专利
自动生成比对检索式
自动生成比对检索式
同
时
比
对
专利的“再发明”
• 通过大数据分析,我们可以对专利信息进行无限细
分、挖掘;
• 我们发现许多按现有申请、授权形式是没有价值的
专利(专利度低,特征度高),其本身发明内容非常
有价值;
• 例如,IBM报废的903件专利,许多都是非常有价值
的发明,问题是人工纂写等错误导致专利报废;
• 如果将这些专利挖掘出来,对这些专利的发明内容
进行重组,进行“再发明”,例如,分拆权利项与
特征度…;
• 不用考虑授权、有效与否,因为这些专利太复杂,
不可能侵权;
• 除了分析自己的专利库外,一定分析竞争对手、行
业的“报废”专利;
• 大数据分析下的专利挖掘,真正实现变“废”为
宝!
• 通信领域H04L,2012-2014共授权
29,599篇,其中平均专利度为11.72,平
均特征度为28.45;
• 按特征度分组,20/19/18/17/21个特征
度为最多,其中20特征度的平均专利度
13.39;
• 我们分析,29,599篇授权中,有1,296篇
的专利度为1,都是高校;
• 其中南京邮电大学为最多,有74篇,平
均特征度70.9,按特征度分组,
55/63/46为最多3组;
• 浙江大学52篇,平均特征度60.21,特
征度48/41/47;
• 清华大学41篇,平均特征度76.67,有2
篇特征度高达106。
• 1,296篇专利发明内容先进,一般公司
无法与之相比,值得“再发明”!
•
大数据无缝集成分析中、美专利交易
Patentics无缝集
成全部、最新
美国专利交易
数据;
•
如,全部美国
专利留置(Lien)
共85,576篇;
•
全部美国专利
质押(Collateral)
共145,312 篇;
•
全部美国专利
贷款(Loan)共
31,369篇;
•
全部美国专利
担保(Security)
共 665,189篇;
•
例如,有280件
专利通过留置
方式被Apple购
买;
普通检索式就可获知所有交易细节
每一项交易
分析中国专利许可
• Patentics无缝集成全部、
最新中国专利法律数据;
• 如,全部中国专利发生专
利许可交易(普通许可、
独占许可)共89,156篇,其
中国外公司让与许可共
5,174篇;
• 其中,最大让与申请人前
三位是,日立(746篇)、三
星(217)、松下(212)
• 最大受让申请人为京东
方,共受让680篇,其中
受让日立665篇;
京东方受让
专利680篇
最大让与人日
立、佳能等
tcl受让专利
189篇
最大让与人三
星、松下等
分析680篇许可专
利的技术聚类,可
以窥视京东方专利
布局与意图
中国专利交易
• 全部中国专利(实用、发明)发生专利
权转移共341,873篇,其中国内申请
人为256,469篇,国外申请人为
高通受让405
85,404篇;
篇中国发明专
NXP受让1455
篇中国发明
利,主要让与
申请人列表
• 其中,发明专利权转移共202,721
篇,其中国外申请人共转移84,369
篇,除去公司内部转移20,561篇,
实际发生专利权转移63,808;
• 国内申请人进行专利权转移较少。
诺基亚、惠普
是主要让与方
Apple专利购买策略
• Apple用申请人Apple申请与iphone相关核心专利
UCL/455共有1,194篇;
ann/apple and ccl/455
• Apple通过购买专利方式,得455分类专利1,009篇;
lsann/apple and ccl/455 andnot ann/apple
• 所以,仅用申请人Apple检索,漏检一半,正确检
索,得2203篇;
lsann/apple or ann/apple and ccl/455
Apple专利购买策略
检索式:”aclm/touch” 结果:70925项
发现被引用最多(1065),的确是触控原
创专利,2发明人是原创发明人
2007年引入iPhone时,已经被Apple购得
Apple2007年买了专利,现在还在买什么?
549篇专利都被Apple买了,但没有
一篇通过现有检索系统能检索到
从申请标题看,新发明申请人
Martisauskas的新发明,很可能就是
Apple新一代iPhone的新创新
原创发明人ELIAS与新
发明人Martisauskas共
同申请新的专利
原来新发明人
Martisauskas的新申
请也被Apple买了
计算中兴最有价值专利
申请被引用100次
+授权被引用38次
中兴最有价值专利共被引用138次
中兴最有价值专利未进入中国
计算同时段Ericsson有价值专利
中兴US7,254,119可以排在第八位
同时段Ericsson有价值专利进入中国
Ericsson最有价值专利
都进入中国
美国-被引用-公开年度-趋势
35
被引用度
美国-被引用-公开年度-趋势
30.37
30
29.12
28.18
28.12
26.76
26.73
26.61
24.99
24.61
25
23.57
23.54
22.91
22.69
22.59
22.8
20.49
19.66
19.43
18.79
18.36
17.87
17.32
16.5
16.47
16.25
15.85
14.85
13.82
12.99
12.88
12.25
20
17.43
15.25
15
12.75
11
9.99
10
8.43
6.75
5.38
4.27
5
3.14
2.152.112.5
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
0
美国-CCL514-被引用-公开年度-趋势
35
被引用度
美国-CCL514-被引用度-公开年度-趋势
30
28.75
26.56
27.42
27.32
26.14
25
25
26.72
24.83
24.43
23.49
21.14
23.76
22.98
22.9
20.79
20.12
19.47
20
18.9
17.96
17.49 17.22
17.19
16.22 15.89 15.97
15.18
14.69
14.59
16.51
15
13.35
12.17
12.57
11.36
11.23
9.6 9.4
10
7.38
6.37
5.5
4.22
5
2.93
2.49
1.832.18
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
0
中、美专利TOP10申请人分析
美国
英文
国外进入
中国
中文
国内
• 专利度/特征度是本征不变量,可以量化世界创新知识的流动!
• 如,松下电工在美国申请与进入中国申请的专利度/特征度分别为,
12.41/17.78(英文)  13.33/17.5(中文)
US-TOP-20-Assignees-University-ACC
40
35
30
25
20
15
10
5
0
Assignees-acc
University-acc
US-TOP-20-Assignees-University-TCC
25
Assigneestcc
20
15
10
5
0
中国-前20-企业-大学-专利度
25
企业-专利度
大学-专利度
20
15
10
5
0
中国-前20-企业-大学-特征度
45
40
35
30
25
20
15
10
5
0
企业-特征度
大学-特征度
中国30省份-状况
江苏省
海南省 25
香港特别行政区
新疆维吾尔自治区
20
内蒙古自治区
15
甘肃省
广东省
北京市
上海市
浙江省
山东省
10
贵州省
台湾省
5
辽宁省
江西省
0
云南省
安徽省
山西省
天津市
吉林省
四川省
广西壮族自治区
湖北省
陕西省
湖南省
河南省
河北省
重庆市
黑龙江省
福建省
授权-国内前10国际分类小组-国外进入中国发明国际分类小组
点击搜索对应专利
授权-国内前10国际分类小组-国外进入中国发明国际分类小组-数量
14000
国内授权-国际分类小组
国外进入中国授权-国际分类小组
12000
11734
10000
8000
7461
6583
6483
6156
6000
5039
4680
4352
4000
4453
4225
4073
3919
3319
2553
2099
2000
1450
1307
1249
265
229
0
H04L029/06
H04L012/56
A61P035/00
G06F017/30
H04L012/24
C12Q001/68
H04L029/08
A23L001/29
A61K036/185
A61P029/00
授权-国外进入中国发明国际分类小组-国内前10国际分类小组
授权-国外进入中国发明国际分类小组-国内前10国际分类小组数量
14000
国外进入中国授权-国际分类小组
国内授权-国际分类小组
11734
12000
10000
8000
7461
6483
6147
6106
6000
5039
4352
4267
3782
4000
2975
3712
3703
3319
3208
3046
2695
2000
1669
1524
1162
112
0
H01L021/02
G02F001/13
H04L029/06
G06F017/30
G03G015/00
G09G003/20
G09G003/36
H01L021/00
H04L012/56
G02F001/133
华为发明前10国际分类小组-中兴国际分类小组
点击搜索对应专利
自动生成比对检索式
自动生成比对检索式
同
时
比
对
华为发明前10国际分类小组-中兴国际分类小组数量
7000
6405
6000
华为发明
中兴发明
5151
5000
4173
4000
3819
3455
3156
2851
3000
2000
1816
1904
1804
1603
1669
1269
1655
1272
1408
1312
13131363
H04L001/00
H04B007/26
947
1000
0
H04L029/06
H04L012/56
H04L012/24
H04Q007/38
H04L012/28
H04L029/08
H04Q007/22
H04L012/26
中兴发明前10国际分类小组-华为国际分类小组
点击搜索对应专利
中兴发明前10国际分类小组-华为国际分类小组数量
7000
6405
6000
中兴发明
华为发明
5151
5000
4173
4000
3819
3455
3156
2851
3000
2000
1816
1804
1603
1655
13631313
1408
1312
1272
1669
1269
956 942
1000
0
H04L029/06
H04L012/56
H04L012/24
H04Q007/38
H04L029/08
H04B007/26
H04L001/00
H04L012/26
H04Q007/22
H04Q007/32
国内-发明申请-申请年度-数量分布
特征度
从15.47-22.22
专利度
从5.89-6.8
1986
1985 25
1987
2013
2012
2011
20
1988
2010
15
1989
2009
10
1990
2008
5
1991
2007
0
1992
2006
1993
2005
1994
2004
1995
2003
1996
2002
1997
1998
1999
2000
2001
国外进入中国-发明申请-申请年度-数量分布
特征度
从20.17-16.78
1986
1985 25
1987
2012
2011
2010
2009
20
1988
2008
15
1989
2007
10
1990
专利度
从11.52-15.65
2006
5
1991
2005
0
1992
2004
1993
2003
1994
2002
1995
2001
1996
1997
1998
1999
2000
大数据分析美国专利
• 美国授权、申请全文9,026,117篇
(2014.08.19),其中
美国国内
日本
德国
韩国
中国
4398757
1192509
377011
224856
68113
212027
131151
36439
23110
美国申请量
PCT进入美国
分析命令
isd/1970-2014 and ns/nn and o/pat
isd/1970-2014 and ns/nn and o/pat and fmdb/wo
大数据分析中国专利
• 中国申请全文7,805,243(2014.08.27),其中
中国申请量
中国国内
日本
美国
韩国
德国
6491064
468479
351047
105110
131118
175738
245142
36439
83457
PCT进入美国
分析命令
isd/1984-2014 and ns/nn
isd/1970-2014 and ns/nn and fmdb/wo