Transcript Slide 1

In the name of God

Language Modeling

Mohammad Bahrani

Feb 2011

) Language Modeling ( ينابز يزاس لدم

.

دنك يم يزاس لدم ار نابز رد تاملك يلاوت دادخر ۀ وحن ينابز لدم  : ينابز لدم يرامآ يراتخاس    لامتحا كي  W=w 1 w 2 …w m دننام نابز تاملك زا هلابند كي هب يرامآ ينابز لدم .

دهد يم تبسن P(W)  It must be recognized that the notion “probability of a sentence” is an entirely useless one, under any known interpretation of this term. (Noam Chomsky) ار تاغل يلاوت هوحن ينابز دعاوق يرس كي زا هدافتسا اب يراتخاس ينابز لدم .

دنك يم صخشم 

ينابز يزاس لدم

ينابز يزاس لدم فلتخم حوطس يلحم يناگژاو يوحن ييانعم     ينابز لدم ياهدربراك تاملك ينيب شيپ راتفگ يسانشزاب يعيبط نابز كرد ينيشام ةمجرت يرون ياه هسيون يسانشزاب ...

      

تاملك شرامش

كي رد تاملك عاونا شرامش ،نابز يرامآ يزاس لدم رد مدق نيلوا ًلاومعم .

دشاب يم ينتم هركيپ  نوگانوگ عبانم زا هك فلتخم نوتم زا گرزب يا هعومجم .

: ينتم هركيپ دنا هدش يروآدرگ نويليم دص دنچ دح رد ينتم ياه هركيپ رد ) word tokens ( تاملك لك دادعت عون هب هتسب ( نويليم دنچ اي رازه دص دنچ دح رد ) word types ( تاملك عاونا دادعت ) نوتم    .

دوش ي زاس لامرن و يدنب هعطق دياب ينتم هركيپ ًلاومعم تاملك شرامش زا لبق 

تاملك شرامش

دادخر دادعت و ينتم هركيپ رد اه word type عاونا نييعت : تاملك شرامش اهنآ زا كي ره  ) اه word type ( تاملك عاونا دادعت ناوت يم ينتم هركيپ شياميپ راب كي اب .

درك شرامش ينتم هركيپ رد ار  ا ب تاملك زا يمك دادعت ًلاومعم يعقاو نوتم زا گرزب ينتم ۀركيپ كي رد .

دنهد يم خر نيياپ يناوارف اب تاملك زا يدايز دادعت و لااب يناوارف  .

دنراد ينتم هركيپ رد ار يناوارف نيرتشيب اه stop word ًلاومعم 

Zipf نوناق : تاملك شرامش

:) Zipf’s law ( Zipf نوناق هب و مين ك يم بترم ) رتمك هب رتشيب زا ( يناوارف بسحرب ار ينتم هركيپ رد دوجوم تاملك .

ميهد يم N ات 1 ) rank ( هبتر اهنآ هب بيترت   .

دراد دوجو سوكعم بسانت كي اهنآ ۀبتر و تاملك يناوارف نيب هك درك هدهاشم Zipf 

f

(

w

) 

C z

(

w

)

a

w هملك يناوارف : f(w) w هملك هبتر : z(w) ( لدم ياهرتماراپ ( تباث ريداقم : a و C   

Zipf نوناق : تاملك شرامش

log

f

(

w

)  log

C

a

log

z

(

w

) .

د راد دوجو يطخ ۀطبار هبتر متيراگل و يناوارف متيراگل نيب  .

درك هبساحم ينتم ۀركيپ ره يارب ناوت يم ار a و C ياهرتماراپ 

تاملك شرامش

) lexicon ( تاغل هعومجم ناونع هب ينتم هركيپ رتراركترپ تاملك اهدربراك زا يرايسب رد .

دنوش يم باختنا  : راركترپ تاملك باختنا يارب هار ود ) رتدربراكرپ ۀملك 10000 ًلاثم ( يباختنا تاملك دادعت يوررب هناتسآ دح نتشاذگ ( 10 زا رتلااب يناوارف اب تاملك باختنا ًلاثم ( تاملك يناوارف يوررب هناتسآ دح نتشاذگ    تسيل زا ًلاومعم اه stop word تاعلاطا يبايزاب ياهدربراك دننام اهدربراك زا يضعب رد .

دنوش يم فذح تاملك  .

ميهد رارق lexicon رد ار يباختنا تاملك ۀشير طقف تسا نكمم دربراك هب هتسب  دراو lexicon رد تسا نكمم زاين هب هتسب زين يرگيد تاملك ،دربراكرپ تاملك رب هولاع .

دوش 

n-gram لدم

: n-gram لدم هملك يرامآ ينابز لدم نيرتدربراكرپ و نيرت هداس n-1 زا يا هلابند زا سپ هملك كي دادخر لامتحا    : يلك تلاح رد W=w 1 w 2 …w m تاغل هلابند لامتحا 

P

(

W

) 

P

(

w

1

w

2 

w m

) 

i m

  1

P

(

w i

|

w

1 

w i

 1 )

P

(

W

) 

P

(

w

1 )

P

(

w

2 |

w

1 )

P

(

w

3 |

w

1

w

2 ) 

P

(

w m

|

w

1 

w m

 1 ) .

تسا نكممريغ لمع رد و لكشم رايسب قوف لامتحا ۀبساحم ،دشاب گرزب m يتقو 

n-gram لدم

لدم و دوش يم دودحم هملك .

n-1 هب يلبق تاملك دادعت لمع رد دوش يم هديمان n-gram لصاح 

P

(

W

) 

P

(

w

1

w

2 

w m

) 

i m

  1

P

(

w i

|

w i

 (

n

 1 ) 

w i

 1 ) 5 ات ) unigram ( 1 نيب : n لومعم ريداقم monogram : n=1  ) 4-gram ( bigram : n=2 trigram : n=3 quadrigram : n=4 5-gram : n=5     

n-gram لدم

) monogram لدم ( n=1 يارب 

P

(

W

) 

P

(

w

1 )

P

(

w

2 )

P

(

w

3 ) 

P

(

w m

) ) trigram لدم ( n=3 يارب 

P

(

W

) 

P

(

w

1 )

P

(

w

2 |

w

1 )

P

(

w

3 |

w

1

w

2 )

P

(

w

4 |

w

2

w

3 ) 

P

(

w m

|

w m

 2

w m

 1 )

n-gram لدم جارختسا

هرك يپ كي رد تاملك ۀلابند شرامش زا هدافتسا اب n-gram ياه لدم : دنيآ يم تسد هب گرزب ينتم V لماش lexicon كي و دوش يم شرامش هركيپ تاملك عاونا مامت ادتبا .

ددرگ يم نييعت ) رظندروم تاملك رياس و ( دربراكرپ تاملك زا هملك  ناگژاو زا جراخ هملك ناونع هب صخشم دامن كي اب يگمه تاملك رياس .

دنوش يم نيزگياج ) OOV ( ،ييات هس ، يياتود تابيكرت مامت و هدش شياميپ اهتنا ات ادتبا زا هركيپ سپس .

دوش يم شرامش ) OOV دامن نينچمه و ( ناگژاو تاملك زا ييات n و ...

  

n-gram لدم جارختسا

n تلاامتحا ...

و ييات هس ،يياتود ياه بيكرت شرامش زا سپ .

دنوش يم هبساحم gram  monogram لدم 

P monogram

(

w

) 

N

(

w

)

N total P bigram

(

w

2 |

w

1 ) 

N

(

w

1

w

2 )

N

(

w

1 )

P trigram

(

w

3 |

w

1

w

2 ) 

N

(

w

1

w

2

w

3 )

N

(

w

1

w

2 ) bigram لدم  trigram لدم 

w

1

w

2 

w V w

1

N

(

w

1

w

1 )

N

(

w

2

w

1 ) 

N

(

w V w

1 )

w

2

N

(

w

1

w

2 )

N

(

w

2

w

2 ) 

N

(

w V w

2 )     

w V N

(

w

1

w V

)

N

(

w

2

w V

) 

N

(

w V w V

)

n-gram لدم جارختسا

bigram ياه شرامش سيرتام  

w j N

(

w i w j

) 

N

(

w i

) bigram تلاامتحا سيرتام 

w

1

w

2 

w V w

1

N

(

w

1 |

w

1 )

N

(

w

1 |

w

2 ) 

N

(

w

1 |

w V

)

w

2

N

(

w

2 |

w

1 )

N

(

w

2 |

w

2 ) 

N

(

w

2 |

w V

)     

w V N

(

w V

|

w

1 )

N

(

w V

 |

w

2 )

N

(

w V

|

w V

)

n-gram لدم جارختسا

.

دنك يم دشر ييامن روط هب n شيازفا اب n-gram لدم ياهرتماراپ دادعت V 2 : bigram لدم ياهرتماراپ دادعت  V 3 : trigram لدم ياهرتماراپ دادعت V n : n-gram لدم ياهرتماراپ دادعت    .

تسا دايز رايسب n-gram لدم ياهرتماراپ دادعت نياربانب تسا رازهدنچ ۀبترم زا V ًلاومعم  ينتم هركي پ رد اهنآ هب طوبرم تاملك هلابند ينعي ،دنتسه رفص اهرتماراپ نيا زا يرايسب لمع رد .

تسا هدادن خر ينتم هركيپ مجح ندوب مك ليلد هب  نابز رد تاملك ياه هلابند زا يضعب ندوبن زاجم ليلد هب   sparse سيرتام تروص هب رتويپماك ۀظفاح رد n-gram ياه لدم ۀريخذ ۀوحن نياربانب .

دشاب يم 

) Smoothing ( يزاسراومه

لمع رد ار تابساحم هلم n-gram لدم رد رفص ياه لامتحا دوجو ج زا يرايسب لامتحا دوش يم ثعاب اريز دنك يم هجاوم لكشم اب .

ددرگ رفص اب ربارب ديدج ياه  smoothing اي يزاسراومه ياه شور زا هدافتسا : لح هار  هدشن هديد ياهدادخر لامتحا دننك يم يعس يزاسراومه ياه شور .

دننزب نيمخت يوحن هب ار 

يزاسراومه

شرامش مامت هب

P

w n

|

w n

 1   1 ددع ندرك هفاضا : يزاسراومه شور نيرت هداس ) Add-One شور ( اه

N N

w n

 1 

w n

,  1

w n

  

V

 1  رد يدايز رييغت نوچ تسين يرثؤم شور .

Add-One شور دهد يم رفصريغ تلاامتحا  فيفخت ياه شور زا هدافتسا : يزاسراومه رگيد ياه شور ) discounting ( 

يزاسراومه

) discounting ( فيفخت يوررب و هدش هتساك رفصريغ ياه شرامش زا ،يزاسراومه روظنم هب .

ددرگ يم عيزوت رفص ياه شرامش  تر وص فيفخت ياه شور زا هدافتسا اب رفصريغ ياه شرامش زا نتساك .

دريگ يم  

r

* 

r

.

d r

هيلوا شرامش

:

هدش هداد فيفخت شرامش

: r *

فيفخت بيرض

: d r

  

يزاسراومه

) discounting ( فيفخت ياه شور Good-Turing   ) linear ( يطخ  ) absolute ( قلطم 

يزاسراومه

ره رد : رفص ياه شرامش يوررب هدشرسك ياه شرامش عيزوت n-gram تلاامتحا عومجم هك دريگ تروص يروط دياب عيزوت .

ددرگ 1 اب ربارب سيرتام زا رطس   ياه شرامش يوررب اه bigram زا هدشرسك ياه شرامش عيزوت رفص تسد هب ريز شور هب (

w i

|

w i

 1 )  P(w i |w i-1 ) ديدج نيمخت P(w i |w i-1 )=0 هكنيا ضرف اب : ديآ يم

w j

:

N

 ˆ ( ( 

w i w i

 1

w P j

 1 ) )    0

j P

(

w i

) هدش هتساك تلاامتحا عومجم : β(w)   

يزاسراومه

اب ياه n-gram غارس دشاب هتشادن دوجو ) back off ( درگ بقع n-gram كي هك ينامز .

ميور يم رت نيياپ ةجرد  : Katz درگ بقع شور   (

w i

|

w i

 1 )       

d P C

( ( (

w i w i

 1

w i

 1 |

w i

) )

w i

.

P

 1 ( (

w i w i

) |

w i

 1 if ) if ) if

C

(

w i

 1

w i

1 

C

(

w i

 1

w i

) ) 

C

(

w i

 1

w i

 )

k

0 

k

 (

w i

 1 ) 

w i

:

N

 ˆ ( ( 

w i w i

 1

w i

)  1 )  

i

 0

ينابز ياه لدم يبايزرا

:) perplexity ( يگتشگرس نيگنا يم روط هب هملك ره زا دعب نكمم تاملك دادعت : باعشنا روتكاف نيگنايم  .

دهد يم هجيتن ار يرتمك يگتشگرس ،رت يوق ينابز لدم   يگت شگرس و دوش يم ميسقت نومزآ و شزومآ شخب ود هب ينتم هركيپ .

ددرگ يم هبساحم نومزآ هعومجم يوررب .

ديآ يم تسد هب : هملك M زا هتشر كي يگتشگرس n-gram لدم زا تاملك هتشر لامتحا   

ينابز ياه لدم يبايزرا

PP

 : هملك M زا هتشر كي يگتشگرس ˆ (

w

1

w

2

w

3 

w M

)  1 /

M

.

ديآ يم تسد هب n-gram لدم زا تاملك هتشر لامتحا   ˆ (

w

1

w

2 

w M

) 

i M

  1

P

(

w i

|

w i

 (

n

 1 ) 

w i

 1 ) ينابز ياه لدم يبايزرا رگيد رايعم :) entropy ( يپورتنآ 

H

 log 2

PP

: ينابز لدم يبايزرا رگيد شور ياطخ ناز يم يبايزرا و هتسويپ راتفگ يسانشزاب متسيس رد يريگراك هب يسانشزاب  