Transcript Slide 1
In the name of God
Language Modeling
Mohammad Bahrani
Feb 2011
) Language Modeling ( ينابز يزاس لدم
.
دنك يم يزاس لدم ار نابز رد تاملك يلاوت دادخر ۀ وحن ينابز لدم : ينابز لدم يرامآ يراتخاس لامتحا كي W=w 1 w 2 …w m دننام نابز تاملك زا هلابند كي هب يرامآ ينابز لدم .
دهد يم تبسن P(W) It must be recognized that the notion “probability of a sentence” is an entirely useless one, under any known interpretation of this term. (Noam Chomsky) ار تاغل يلاوت هوحن ينابز دعاوق يرس كي زا هدافتسا اب يراتخاس ينابز لدم .
دنك يم صخشم
ينابز يزاس لدم
ينابز يزاس لدم فلتخم حوطس يلحم يناگژاو يوحن ييانعم ينابز لدم ياهدربراك تاملك ينيب شيپ راتفگ يسانشزاب يعيبط نابز كرد ينيشام ةمجرت يرون ياه هسيون يسانشزاب ...
تاملك شرامش
كي رد تاملك عاونا شرامش ،نابز يرامآ يزاس لدم رد مدق نيلوا ًلاومعم .
دشاب يم ينتم هركيپ نوگانوگ عبانم زا هك فلتخم نوتم زا گرزب يا هعومجم .
: ينتم هركيپ دنا هدش يروآدرگ نويليم دص دنچ دح رد ينتم ياه هركيپ رد ) word tokens ( تاملك لك دادعت عون هب هتسب ( نويليم دنچ اي رازه دص دنچ دح رد ) word types ( تاملك عاونا دادعت ) نوتم .
دوش ي زاس لامرن و يدنب هعطق دياب ينتم هركيپ ًلاومعم تاملك شرامش زا لبق
تاملك شرامش
دادخر دادعت و ينتم هركيپ رد اه word type عاونا نييعت : تاملك شرامش اهنآ زا كي ره ) اه word type ( تاملك عاونا دادعت ناوت يم ينتم هركيپ شياميپ راب كي اب .
درك شرامش ينتم هركيپ رد ار ا ب تاملك زا يمك دادعت ًلاومعم يعقاو نوتم زا گرزب ينتم ۀركيپ كي رد .
دنهد يم خر نيياپ يناوارف اب تاملك زا يدايز دادعت و لااب يناوارف .
دنراد ينتم هركيپ رد ار يناوارف نيرتشيب اه stop word ًلاومعم
Zipf نوناق : تاملك شرامش
:) Zipf’s law ( Zipf نوناق هب و مين ك يم بترم ) رتمك هب رتشيب زا ( يناوارف بسحرب ار ينتم هركيپ رد دوجوم تاملك .
ميهد يم N ات 1 ) rank ( هبتر اهنآ هب بيترت .
دراد دوجو سوكعم بسانت كي اهنآ ۀبتر و تاملك يناوارف نيب هك درك هدهاشم Zipf
f
(
w
)
C z
(
w
)
a
w هملك يناوارف : f(w) w هملك هبتر : z(w) ( لدم ياهرتماراپ ( تباث ريداقم : a و C
Zipf نوناق : تاملك شرامش
log
f
(
w
) log
C
a
log
z
(
w
) .
د راد دوجو يطخ ۀطبار هبتر متيراگل و يناوارف متيراگل نيب .
درك هبساحم ينتم ۀركيپ ره يارب ناوت يم ار a و C ياهرتماراپ
تاملك شرامش
) lexicon ( تاغل هعومجم ناونع هب ينتم هركيپ رتراركترپ تاملك اهدربراك زا يرايسب رد .
دنوش يم باختنا : راركترپ تاملك باختنا يارب هار ود ) رتدربراكرپ ۀملك 10000 ًلاثم ( يباختنا تاملك دادعت يوررب هناتسآ دح نتشاذگ ( 10 زا رتلااب يناوارف اب تاملك باختنا ًلاثم ( تاملك يناوارف يوررب هناتسآ دح نتشاذگ تسيل زا ًلاومعم اه stop word تاعلاطا يبايزاب ياهدربراك دننام اهدربراك زا يضعب رد .
دنوش يم فذح تاملك .
ميهد رارق lexicon رد ار يباختنا تاملك ۀشير طقف تسا نكمم دربراك هب هتسب دراو lexicon رد تسا نكمم زاين هب هتسب زين يرگيد تاملك ،دربراكرپ تاملك رب هولاع .
دوش
n-gram لدم
: n-gram لدم هملك يرامآ ينابز لدم نيرتدربراكرپ و نيرت هداس n-1 زا يا هلابند زا سپ هملك كي دادخر لامتحا : يلك تلاح رد W=w 1 w 2 …w m تاغل هلابند لامتحا
P
(
W
)
P
(
w
1
w
2
w m
)
i m
1
P
(
w i
|
w
1
w i
1 )
P
(
W
)
P
(
w
1 )
P
(
w
2 |
w
1 )
P
(
w
3 |
w
1
w
2 )
P
(
w m
|
w
1
w m
1 ) .
تسا نكممريغ لمع رد و لكشم رايسب قوف لامتحا ۀبساحم ،دشاب گرزب m يتقو
n-gram لدم
لدم و دوش يم دودحم هملك .
n-1 هب يلبق تاملك دادعت لمع رد دوش يم هديمان n-gram لصاح
P
(
W
)
P
(
w
1
w
2
w m
)
i m
1
P
(
w i
|
w i
(
n
1 )
w i
1 ) 5 ات ) unigram ( 1 نيب : n لومعم ريداقم monogram : n=1 ) 4-gram ( bigram : n=2 trigram : n=3 quadrigram : n=4 5-gram : n=5
n-gram لدم
) monogram لدم ( n=1 يارب
P
(
W
)
P
(
w
1 )
P
(
w
2 )
P
(
w
3 )
P
(
w m
) ) trigram لدم ( n=3 يارب
P
(
W
)
P
(
w
1 )
P
(
w
2 |
w
1 )
P
(
w
3 |
w
1
w
2 )
P
(
w
4 |
w
2
w
3 )
P
(
w m
|
w m
2
w m
1 )
n-gram لدم جارختسا
هرك يپ كي رد تاملك ۀلابند شرامش زا هدافتسا اب n-gram ياه لدم : دنيآ يم تسد هب گرزب ينتم V لماش lexicon كي و دوش يم شرامش هركيپ تاملك عاونا مامت ادتبا .
ددرگ يم نييعت ) رظندروم تاملك رياس و ( دربراكرپ تاملك زا هملك ناگژاو زا جراخ هملك ناونع هب صخشم دامن كي اب يگمه تاملك رياس .
دنوش يم نيزگياج ) OOV ( ،ييات هس ، يياتود تابيكرت مامت و هدش شياميپ اهتنا ات ادتبا زا هركيپ سپس .
دوش يم شرامش ) OOV دامن نينچمه و ( ناگژاو تاملك زا ييات n و ...
n-gram لدم جارختسا
n تلاامتحا ...
و ييات هس ،يياتود ياه بيكرت شرامش زا سپ .
دنوش يم هبساحم gram monogram لدم
P monogram
(
w
)
N
(
w
)
N total P bigram
(
w
2 |
w
1 )
N
(
w
1
w
2 )
N
(
w
1 )
P trigram
(
w
3 |
w
1
w
2 )
N
(
w
1
w
2
w
3 )
N
(
w
1
w
2 ) bigram لدم trigram لدم
w
1
w
2
w V w
1
N
(
w
1
w
1 )
N
(
w
2
w
1 )
N
(
w V w
1 )
w
2
N
(
w
1
w
2 )
N
(
w
2
w
2 )
N
(
w V w
2 )
w V N
(
w
1
w V
)
N
(
w
2
w V
)
N
(
w V w V
)
n-gram لدم جارختسا
bigram ياه شرامش سيرتام
w j N
(
w i w j
)
N
(
w i
) bigram تلاامتحا سيرتام
w
1
w
2
w V w
1
N
(
w
1 |
w
1 )
N
(
w
1 |
w
2 )
N
(
w
1 |
w V
)
w
2
N
(
w
2 |
w
1 )
N
(
w
2 |
w
2 )
N
(
w
2 |
w V
)
w V N
(
w V
|
w
1 )
N
(
w V
|
w
2 )
N
(
w V
|
w V
)
n-gram لدم جارختسا
.
دنك يم دشر ييامن روط هب n شيازفا اب n-gram لدم ياهرتماراپ دادعت V 2 : bigram لدم ياهرتماراپ دادعت V 3 : trigram لدم ياهرتماراپ دادعت V n : n-gram لدم ياهرتماراپ دادعت .
تسا دايز رايسب n-gram لدم ياهرتماراپ دادعت نياربانب تسا رازهدنچ ۀبترم زا V ًلاومعم ينتم هركي پ رد اهنآ هب طوبرم تاملك هلابند ينعي ،دنتسه رفص اهرتماراپ نيا زا يرايسب لمع رد .
تسا هدادن خر ينتم هركيپ مجح ندوب مك ليلد هب نابز رد تاملك ياه هلابند زا يضعب ندوبن زاجم ليلد هب sparse سيرتام تروص هب رتويپماك ۀظفاح رد n-gram ياه لدم ۀريخذ ۀوحن نياربانب .
دشاب يم
) Smoothing ( يزاسراومه
لمع رد ار تابساحم هلم n-gram لدم رد رفص ياه لامتحا دوجو ج زا يرايسب لامتحا دوش يم ثعاب اريز دنك يم هجاوم لكشم اب .
ددرگ رفص اب ربارب ديدج ياه smoothing اي يزاسراومه ياه شور زا هدافتسا : لح هار هدشن هديد ياهدادخر لامتحا دننك يم يعس يزاسراومه ياه شور .
دننزب نيمخت يوحن هب ار
يزاسراومه
شرامش مامت هب
P
w n
|
w n
1 1 ددع ندرك هفاضا : يزاسراومه شور نيرت هداس ) Add-One شور ( اه
N N
w n
1
w n
, 1
w n
V
1 رد يدايز رييغت نوچ تسين يرثؤم شور .
Add-One شور دهد يم رفصريغ تلاامتحا فيفخت ياه شور زا هدافتسا : يزاسراومه رگيد ياه شور ) discounting (
يزاسراومه
) discounting ( فيفخت يوررب و هدش هتساك رفصريغ ياه شرامش زا ،يزاسراومه روظنم هب .
ددرگ يم عيزوت رفص ياه شرامش تر وص فيفخت ياه شور زا هدافتسا اب رفصريغ ياه شرامش زا نتساك .
دريگ يم
r
*
r
.
d r
هيلوا شرامش
:
هدش هداد فيفخت شرامش
: r *
فيفخت بيرض
: d r
يزاسراومه
) discounting ( فيفخت ياه شور Good-Turing ) linear ( يطخ ) absolute ( قلطم
يزاسراومه
ره رد : رفص ياه شرامش يوررب هدشرسك ياه شرامش عيزوت n-gram تلاامتحا عومجم هك دريگ تروص يروط دياب عيزوت .
ددرگ 1 اب ربارب سيرتام زا رطس ياه شرامش يوررب اه bigram زا هدشرسك ياه شرامش عيزوت رفص تسد هب ريز شور هب (
w i
|
w i
1 ) P(w i |w i-1 ) ديدج نيمخت P(w i |w i-1 )=0 هكنيا ضرف اب : ديآ يم
w j
:
N
ˆ ( (
w i w i
1
w P j
1 ) ) 0
j P
(
w i
) هدش هتساك تلاامتحا عومجم : β(w)
يزاسراومه
اب ياه n-gram غارس دشاب هتشادن دوجو ) back off ( درگ بقع n-gram كي هك ينامز .
ميور يم رت نيياپ ةجرد : Katz درگ بقع شور (
w i
|
w i
1 )
d P C
( ( (
w i w i
1
w i
1 |
w i
) )
w i
.
P
1 ( (
w i w i
) |
w i
1 if ) if ) if
C
(
w i
1
w i
1
C
(
w i
1
w i
) )
C
(
w i
1
w i
)
k
0
k
(
w i
1 )
w i
:
N
ˆ ( (
w i w i
1
w i
) 1 )
i
0
ينابز ياه لدم يبايزرا
:) perplexity ( يگتشگرس نيگنا يم روط هب هملك ره زا دعب نكمم تاملك دادعت : باعشنا روتكاف نيگنايم .
دهد يم هجيتن ار يرتمك يگتشگرس ،رت يوق ينابز لدم يگت شگرس و دوش يم ميسقت نومزآ و شزومآ شخب ود هب ينتم هركيپ .
ددرگ يم هبساحم نومزآ هعومجم يوررب .
ديآ يم تسد هب : هملك M زا هتشر كي يگتشگرس n-gram لدم زا تاملك هتشر لامتحا
ينابز ياه لدم يبايزرا
PP
: هملك M زا هتشر كي يگتشگرس ˆ (
w
1
w
2
w
3
w M
) 1 /
M
.
ديآ يم تسد هب n-gram لدم زا تاملك هتشر لامتحا ˆ (
w
1
w
2
w M
)
i M
1
P
(
w i
|
w i
(
n
1 )
w i
1 ) ينابز ياه لدم يبايزرا رگيد رايعم :) entropy ( يپورتنآ
H
log 2
PP
: ينابز لدم يبايزرا رگيد شور ياطخ ناز يم يبايزرا و هتسويپ راتفگ يسانشزاب متسيس رد يريگراك هب يسانشزاب