Natural Language Processing

Download Report

Transcript Natural Language Processing

ह द
िं ी शब्दतिंत्र, भा.प्रौ.सिं. मब
िं ई
वर्तमान दल:
पष्ु पक भट्टाचार्त, प्रभाकर पाण्डेर्, लक्ष्मी कश्र्प, सललल
जोशी, अरुण कार्र्तकेर्न, प्रचरु गोर्ल और कई पव
ू त
शोध-छात्र, स्नार्कोत्र्र एवं स्नार्क छात्र एवं शोध
कमतचारी
भारर् में महर् ् भाषाववववधर्ा
भाषा एवं भावषर्ों की संख्र्ा
भाषा
जनसिंख्या (2001 की जनगणना के
आधार पर; लगभग)
हहंदी
450, 000, 000
मराठी
72, 000, 000
कोंकणी
7, 000, 000
संस्कृर्
6000
नेपाली
13, 000, 000
भाषा एवं भावषर्ों की संख्र्ा (क्रमशः)
भाषा
जनसिंख्या (2001 की जनगणना के
आधार पर; लगभग)
कश्मीरी
5, 000, 000
आसामी
13, 000, 000
र्लमल
60, 000, 000
मलर्ालम
33, 000, 000
बोडो
1, 000, 000
मणणपुरी
1, 000, 000
प्रमख
ु भाषा प्रक्रक्रर्ा पहल
• मुख्र्र्ः सरकार की ओर से : सूचना एवं प्रौद्र्ोगगकी मंत्रालर्, मानव
संसाधन एवं ववकास मंत्रालर्, ववज्ञान एवं र्कनीकी ववभाग
• हाल में औद्र्ोगगक संस्थानों द्वारा अत्र्गधक रुझान : भारर्ीर्
भाषाओं पर केंहिर् प्रा.भा.प्र.(एनएलपी) का प्रर्ास
– गूगल
– माइक्रोसाफ्ट
– आईबीएम शोध प्रर्ोगशाला
– र्ाहू
– टीसीएस
प्राकृर्र्क भाषा प्रक्रक्रर्ा (एन.एल.पी.), भा.प्रौ.सं. मुंबई शोध-दल,
सरकार और औद्र्ोगगक संस्थानों द्वारा अत्र्गधक समगथतर्
हहन्दी शब्दर्न्त्र
•
•
•
•
•
शब्दर्ंत्र – एक शाब्ब्दक आँकडासंचर्
हहंदी शब्दर्ंत्र – अंग्रेजी शब्दर्ंत्र द्वारा प्रेतरर्
संकल्पना के आधार पर र्नलमतर्
पर्ातर्-समूह – शब्दर्न्त्र के मुख्र् आधार
ववलभन्न वाक्र्गर् वगों के ललए ववलभन्न व्र्वस्था
लसद्ांर्
हहन्दी शब्दर्न्त्र की संरचना
1. पयााय-समू
गाय,गऊ, गैया, धेनु
व्याख्या (उदा रण सह त)
सींगवाला एक शाकाहारी मादा चौपाया
हहन्दू लोग गाय को गो माता कहते हैं ।
2. शब्द-भेद ननधाारण-संज्ञा, क्रिया, हवशेषण, क्रिया-हवशेषण ।
3. सत्ता-मीमािंसा ननधाारण
पयााय-समू
•
ननमााण सिंबिंधी ससद्ािंत
सिंक्षिप्तता
– कम से कम पर्ातर्-शब्दों के प्रर्ोग से संकल्पना की एकाथतर्ा का स्पष्टीकरण
• व्यापकता
– संकल्पना की एकाथतर्ा को दशातनेवाले सभी पर्ातर्-शब्दों को क्रम से उनकी
बारम्बारर्ा के आधार पर पर्ातर्वाची-समूह में प्रववब्ष्ट
• प्रनतस्थापनीयता
– पर्ातर्-समह
ू में आए हुए अगधकर्र शब्दों का उदाहरण-वाक्र् में बबना अथत
पतरवर्तन के प्रर्र्स्थापना संभव
– घर, गृह, मकान, सदन, शाला, आलय, धाम, हनके तन, वास्तु, पण-मनुष्यों का
छाया हुआ वह स्थान,जो दीवारों से घेरकर बनाया जाता है "इस घर में पााँच
कमरे हैं "
शब्दर्ंत्र में संबंध
•
•
•
•
•
•
•
पर्ातर्वाची (Synonymy)
अगधवाची (Hypernymy) / अधोवाची (Hyponymy)
ववलोमाथी (Antonymy)
अंगवाची (Meronymy) / अंगीवाची (Holonymy)
श्रेणीकरण (Gradation)
अपतरहार्तर्ावाची (Entailment)
प्रकारवाची (Troponymy)
सिंज्ञा-रे खाचित्र
चौपार्ा,पशु
शाकाहारी
अगधवाची
पँछ
ू
अंगवाची
गाय, गऊ
सींगवाला एक शाकाहारी
मादा चौपार्ा
आंर्र् र्ोग्र्र्ा
र्नदे शी क्रक्रर्ा
थन
अधोवाची
कामधेनु
गुण
ववलोमाथी
(ललंग)
मैनी गाय
पगुराना
बैल
आँकडे
पर्ातर्-समूह
33500
एकमेव शब्द
80400
संबंधर्ुक्र्
पर्ातर्-समूह
33500
हहंदी-अंग्रेजी र्ोब्जर्
पर्ातर्-समूह
13000
खोजे गए शब्द
260000
प्रभाव, उपर्ोगगर्ा एवं प्रत्र्क्षर्ा
• उपर्ोग के ललए आनलाइन उपलब्ध (र्नःशल्
ु क)
• शोध कार्त हे र्ु र्नःशुल्क डाउनलोड की सवु वधा
• भाषाववज्ञान आँकडा संघ (LDC), पें लसलवेर्नर्ा
ववश्वववद्र्ालर्, अमरीका द्वारा सावतभौलमक उपलब्धर्ा
• भारर्ीर् भाषा खोज इंब्जन पर काम करने के ललए गग
ू ल
द्वारा क्रीर् व्र्ावसार्र्क अनुज्ञापत्र
• र्रू ोपीर् भाषा संसाधन संगठन (ELRA) द्वारा जल्द
उपलब्ध: र्ूरोप का भाषा आँकडा कोश
• भारर्ीर् भाषाववज्ञान आँकडा संघ द्वारा उपलब्ध
प्रभाव, उपर्ोगगर्ा एवं प्रत्र्क्षर्ा (क्रमशः)
•
•
•
•
•
ववश्वभर से दै र्नक उल्लेख
सन ् 2006 से 2.5 लाख से अगधक शब्द-खोज
4600 से अगधक डाउनलोड
कई भारर्ीर् भाषाओं के शब्दर्ंत्र का केंिबबंद ु
भारर्ीर् भाषा अनव
ु ाद, संक्षेपण, भाषाओं के मध्र्
खोज के ललए कई शोधकर्ातओं द्वारा आधारभूर्
संसाधन के रूप में प्रर्क्
ु र्
अन्र् भारर्ीर् भाषाओं के शब्दर्ंत्रों की धुरी
बंगाली शब्दर्ंत्र
िववड
भाषा
शब्दर्ंत्र
संस्कृर्
शब्दर्ंत्र
पंजाबी
शब्दर्ंत्र
हहंदी शब्दर्ंत्र
उत्र्र-पूवत
भाषा
शब्दर्ंत्र
कोंकणी
शब्दर्ंत्र
मराठी
शब्दर्ंत्र
अंग्रेजी
शब्दर्ंत्र
संलग्न शब्दर्ंत्र
• अपतरलमर् शब्द संसाधन
• र्ांबत्रक अनव
ु ाद, भाषा के मध्र् खोज के ललए बहुर् ही
लाभकारी
• भाषा-अध्र्ापन, प्रलशक्षण, र्ुलनात्मक भाषाववज्ञान के ललए
बहुर् उपर्ोगी
• र्ूरोशब्दर्ंत्र के समान परं र्ु ववलशष्ट भारर्ीर् भाषा
अलभलाक्षणणकर्ा के कारण समीक्षात्मक अंर्र
शब्दाथत
शब्दर्ंत्र पर आधातरर् मानक अणखल
भारर्ीर् शब्दकोश
(W1, W2, W3,
W4, W5, W6 )
(sun)
(cub, lad,
laddie, sonny,
sonny boy)
(son, boy)
हहंदी
मराठी
बंगाली
उडडर्ा
र्लमल
(W1, W2, W3, W4,
W5, W6 )
(W1, W2, W3)
(W1, W2 ,
W3)
(W1, W2,
W3, W4)
(W1, W2, W3)
(सय
ू ,ा सरू ज, भान, भास्कर,
प्रभाकर, हदनकर, अिंशमान,
अिंशमाली)
(सय
ू ,ा भान, हदवाकर,
भास्कर, रवव, हदनेश,
हदनमणी)
...
...
...
(लडका, बालक, बच्िा,
छोकडा, छोरा)
(मलगा, पोरगा, पोर,
पोरगे)
…
…
…
(पुत्र,बेटा,लड़का,लाल,सुत,ब
च्चा,सूत,नंदन,नन्दन,पूत,तनय)
(मलगा, पत्र, लेक,
चिरिं जीव, तनय )
…
…
…
सम्मान
• पी.के. पटवधतन प्रौद्र्ोगगकी ववकास परु स्कार, 2008
• हहंदी शब्दर्ंत्र पर आधातरर् बहुभाषीर् आँकडासंचर्
र्नमातण के ललए माइक्रो साफ्ट शोध भारर् के द्वारा
शोध अनद
ु ान
• हहंदी शब्दर्ंत्र का घटक के रूप में अव्र्वब्स्थर् सच
ू ना
प्रबंधन के ललए आईबीएम भारर् शोध अनद
ु ान
अिंतरााष्ट्रीय सावाभौसमक शब्दतिंत्र सम्मेलन, 31 जनवरी से 4 फरवरी,
हहंदी शब्दर्ंत्र
की सफलर्ा
के कारण
भा.प्रौ.सं. मुंबई
को अनुदत्र्
एक प्रमुख
अंर्रातष्रीर्
कार्तक्रम