Tuesday, December 28, 2021

शब्दभेद टैगिंग : Parts of Speech Tagging (POS टैगिंग)

 प्रस्तावना:

प्रत्येक भाषा के शब्द-वर्गों के भिन्न प्रकार के शब्दों को प्रणाली को समझाने के लिए कुछ निश्चित टैग निर्धारित किए जाते हैं, जिससे कि उन शब्दों के इनपुट देने पर उनका उचित एवं स्पष्ट परिणाम या आउटपुट(Output) प्राप्त किया जा सके। जैसे- हिंदी के व्यक्तिवाचक संज्ञा के लिए ‘NNP’ जातिवाचक संज्ञा के लिए ‘NN’ सर्वनाम ‘PR’ मुख्य क्रिया ‘VM’ एवं संयोजक ‘CC’ आदि के लिए टैग निर्धारित किए गए हैं। शब्द-भेद टैगिंग (Parts of Speech Tagging) से संबंधित कुछ अन्य छोटी-छोटी प्रक्रियाएं भी होती हैं जो निम्न हैं- नाम पद चिह्नन, मुद्रा चिह्नन, दिनांक पद चिह्नन, पदबंध चिन्हन आदि।

 टैगर के माध्यम से दिए गए इनपुट पाठ का दो भाषिक इकाइयों के बीच में खाली स्थान या संभावित विराम के आधार पर शाब्दिक इकाइयों को अलग-अलग किया जाता है। इसका विस्तृत विवरण आगे किया जा रहा है।

शब्दभेद(POS) टैगिंग:- टैगिंग का आरंभ सर्वप्रथम कार्पस टैगिंग से हुआ। पेंसिलवेनिया विश्वविद्यालय द्वारा ‘Penn Tree Bank’ के निर्माण हेतु प्रथम टैग सेट का विकास किया गया था जो इस प्रकार है-

Number

Tag

Description

1.

CC

Coordinating conjunction

2.

CD

Cardinal number

3.

DT

Determiner

4.

EX

Existential there

5.

FW

Foreign word

6.

IN

Preposition or subordinating conjunction

7.

JJ

Adjective

8.

JJR

Adjective, comparative

9.

JJS

Adjective, superlative

10.

LS

List item marker

11.

MD

Modal

12.

NN

Noun, singular or mass

13.

NNS

Noun, plural

14.

NNP

Proper noun, singular

15.

NNPS

Proper noun, plural

16.

PDT

Predeterminer

17.

POS

Possessive ending

18.

PRP

Personal pronoun

19.

PRP$

Possessive pronoun

20.

RB

Adverb

21.

RBR

Adverb, comparative

22.

RBS

Adverb, superlative

23.

RP

Particle

24.

SYM

Symbol

25.

TO

to

26.

UH

Interjection

27.

VB

Verb, base form

28.

VBD

Verb, past tense

29.

VBG

Verb, gerund or present participle

30.

VBN

Verb, past participle

31.

VBP

Verb, non-3rd person singular present

32.

VBZ

Verb, 3rd person singular present

33.

WDT

Wh-determiner

34.

WP

Wh-pronoun

35.

WP$

Possessive wh-pronoun

36.

WRB

Wh-adverb

शब्दों के साथ उनके शब्दवर्ग आदि संबंधी सूचनाएं जोड़ने की प्रक्रिया टैगिंग है। आरंभ में केवल शब्दभेद संबधी सूचनाएं ही जोड़ी जाती थीं, इस कारण इसे शब्दभेद टैगिंग कहा जाता था। प्रत्येक भाषा में कुछ वर्ग समान होते हैं। अतः उनके टैग एक ही होने चाहिए किंतु भाषा विशेष में पाये जाने वाले शब्दवर्गों के लिए स्वतंत्र टैग बनाये जा सकते हैं। हिंदी के लिए IIT हैदराबाद और CIIL मैसूर द्वारा टैगसेट बनाये गए हैं। एक सामान्य हिंदी टैगसेट इस प्रकार हो सकता है-

टैग

शब्दवर्ग नाम

हिंदी नाम

उदाहरण

NNP

Proper noun

व्यक्तिवाचक संज्ञा

राममोहन

NN

Common noun

जातिवाचक संज्ञा

लड़काछाता

PR

Pronoun

सर्वनाम

वहतुम

DT

Determiner

निर्धारक

यहवह

VM

Verb Main

मुख्य क्रिया

जानाखाता

JJ

Adjective

विशेषण

सुंदरबुरा

RB

Adverb

क्रियाविशेषण

तेजधीमा

QW

Question word

प्रश्नवाचक शब्द

क्याकौन

UH

Interjection

विस्मयादिबोधक

ओहआह

PP

Postposition

परसर्ग

नेको

PT

Particle

निपात

हीभी

NW

Negation word

नकारात्मक शब्द

नहीं

DE

Date entity

दिनांक पद

20/2/201420 फर. 2014

NM

Number

संख्या

0123785

CR

Currency

मुद्रा

$

TE

Time entity

समय पद

12:1301:23 PM

PM

Punctuation mark

विराम चिह्न

; ‘

LS

Listing

सूचीकरण

1. 2.

CC

Conjunction

संयोजक

औरकिंतु

PW

Postpositional word

परसर्गीय शब्द

बादपहले

VAX

Verb Auxiliary

सहायक क्रिया

हैथा

VAS

Verb Aspectual

पक्षात्मक क्रिया

रहाचुका

VEX

Verb Explicator

रंजक क्रिया

चल दियाकर बैठा

CH

character

वर्ण

PRP

Reflexive Pronoun

स्ववाची सर्वनाम

अपनाखुद

SFW

Suffix Word

प्रत्ययात्मक शब्द

वालाकर

CW

Compound Word

सामासिक शब्द

माता-पितारूप-निर्माण

DW

Duplicative Word

द्विरुक्त शब्द

पहला-पहलाचलते-चलते

 किसी पाठ की टैगिंग में पाठ में आए हुए शब्दों के साथ उनके टैग कई प्रकार से जोड़े जा सकते हैं: जैसे-



इस प्रकार टैग संबंधी सूचनाएं सामान्य पाठ की तरह भी हो सकती है और प्रत्येक शब्द के साथ अलग-अलग भी दी जा सकती हैं। जैसे-

ü इसप्रकार  /DEN/

ü वह       /PR/

ü तेज      /JJ/

ü दौड़ता    /VM/

ü है       /AUX/

जब किसी पाठ का इनपुट(Input) दिया जाता है, तो जो सामग्री आउटपुट(Output) के रूप में प्राप्त होती है। उसका वाक् चिह्नन हो जाने के बाद पाठ इनपुट का दो भाषिक इकाइयों के बीच में आने वाले खाली स्थान और वाक् इनपुट में वास्तविक या संभावित विराम के आधार पर शाब्दिक इकाइयों को अलग-अलग किया जाता है और उनकी शब्द-भेद टैगिंग की जाती है। POS टैगिंग के आवश्यकतानुसार रूपवैज्ञानिक विश्लेषण का भी प्रयोग किया जाता है। यह मुख्यतः दो प्रकार का होता है- रूपसाधक एवं व्युत्पादक। जैसे- ‘घोड़ा’ हिंदी भाषा का एककोशीय शब्द है अतः इसे ‘मूल शब्द’ माना जाएगा। वाक्य में प्रयोग के आधार पर इसके चार व्याकरणिक रुप प्राप्त होते हैं।

o   घोड़ा जा रहा है: (एकवचन, प्रत्यक्ष रुप)

o   घोड़े को जाने दो: (एकवचन, परसर्गीय, तिर्यक रूप)

o   घोड़े जा रहे हैं: (बहुवचन, प्रत्यक्ष रूप)

o   घोड़ों को जाने दो: (बहुवचन, परसर्गीय, तिर्यक रूप)

रूपवैज्ञानिक विश्लेषण प्रक्रिया को संपन्न करने वाली प्रणाली का नाम रूपवैज्ञानिक विश्लेषक है। यह प्रणाली ‘घोड़ा’ के इन चारों रूपों का विश्लेषण कर ‘मूल शब्द’ घोड़ा से मैप करेगा। जिससे कि इस शब्द की शब्द-भेद टैगिंग ‘जातिवाचक संज्ञा’ के रूप में की जा सकेगी। रूप विश्लेषक प्रणाली में रूपविश्लेषण नियम एवं डेटाबेस(database) मुख्य होते हैं। इसी प्रकार विभिन्न नियमों और डेटाबेस की सहायता से पाठ में आये सभी शब्दों की शब्द-भेद टैगिंग की जाती है। इसके अलावा इसमें कुछ अन्य छोटी-छोटी प्रक्रिया भी होती है। इनमें से कुछ प्रमुख निम्नलिखित हैं-

(1)- नाम पद चिह्नन :- व्याकरण में प्राप्त ‘व्यक्तिवाचक संज्ञाओं’ जैसे- राम, मोहन आदि को प्राकृतिक भाषा संसाधन प्रणालियों के विकास के क्षेत्र में इन्हें नाम पद कहा जाता है। संसाधन की प्रक्रिया के दौरान इनका अलग से संज्ञान किया जाता है। शब्द-भेद टैगिंग के दौरान इनका भी चिह्नन किया जाता है।

(2)- दिनांक पद चिह्नन :-

                 दिनांक पदों की संरचना अन्य से भिन्न होती है। अतः दिनांक संरचनाओं के स्वरूप के आधार पर उसे अलग से चिन्हित करने का कार्य भी शब्द-भेद टैगिंग के दौरान किया जाता है। जैसे- dd/mm/yy और dd/mm/yyyy आदि।

(3)- बहुशब्दीय अभिव्यक्ति संज्ञान :-

               प्राकृतिक भाषा संसाधन के दौरान आयी हुई एक नई संकल्पना  बहुशब्दीय अभिव्यक्ति है। जब एक से अधिक शब्द एक साथ रहते हुए एक ही अर्थ का प्रतिनिधित्व करते हों और अलग-अलग आने पर अलग-अलग  अर्थों का, तो ऐसे शब्द-युग्म बहुशब्दीय अभिव्यक्ति के अंतर्गत आते हैं। और इनकी पहचान आवश्यक हो जाती है। यदि इनकी पहचान नहीं होगी और यदि किसी प्रणाली द्वारा उन्हें अलग-अलग समझ लिया जाएगा तो आगे जो भी प्रक्रिया होगी उसमें शब्दों के मेल से प्राप्त होने वाला मूल अर्थ प्राप्त नहीं हो सकेगा। अतः इसके बाद जो भी आउटपुट प्राप्त होगा वह वास्तविक परिणाम से भिन्न होगा। जैसे- गोरखपाण्डेय छात्रावास, गोपालपुर, चंदन यादव आदि में प्रत्येक शब्द-युग्मों द्वारा प्राप्त अर्थ उसमें आए शब्दों के अलग-अलग अर्थों को जोड़कर बनाए गए अर्थों से भिन्न है। अतः शब्द-भेद टैगिंग के दौरान इनके शब्दभेद का भी संज्ञान आवश्यक हो जाता है।

 (4)- मुद्रा चिह्नन :-

             विभिन्न देशों की मुद्राओं की रूप रचना एवं बनावट भिन्न होती है। अतः उन देशों की मुद्राओं और उनसे संबंधित चिन्हों की पहचान के लिए यह कार्य शब्द-भेद टैगिंग के दौरान किया जाता है।

(5)- विसंदिग्धीकरण :-

            सभी भाषाओं का निर्माण प्राकृतिक रूप से हुआ है इसलिए सभी भाषाएँ जटिल होती हैं। इसमें एक ही शब्द प्रयोग की स्थिति के आधार पर कई प्रकार्यात्मक भूमिकाओं का निर्वहन करता है। इसी स्थिति में कुछ शब्दों की संरचनात्मक कोटि और अर्थ के निर्धारण में संदिग्धता होने पर विसंदिग्धिकरण से संबंधित टूल का भी प्रयोग किया जाता है। 

(6)- पदबंध चिन्हन:-

            पद एवं पदों का विस्तार पदबंध कहलाता है। किसी वाक्य में आए हुए पदबंधों को अलग-अलग चिन्हित करने की प्रक्रिया पदबंध चिन्हन है। पदबंध एक शब्द का भी हो सकता है और एक से अधिक शब्दों का भी हो सकता है यह गतिक संरचना है। पदबंधों की अलग-अलग पहचान के लिए पदबंध रचना नियमों की आवश्यकता होती है। वाक्य में पदबंधों की पहचान के लिए कोई चिन्हक नहीं आता और न ही पदों की संख्या के आधार पर उन्हें अलग-अलग पहचाना जा सकता है। हिंदी में परसर्ग, पदबंध के पूरा होने के सूचक हैं किंतु सभी वाक्यों में कर्ता और कर्म के साथ परसर्गों का प्रयोग नहीं होता इसलिए अन्य पदबंध रचना नियम भी लगाने पड़ते हैं।

किसी भी वाक्य में पदबंध चिन्ह्न के लिए पहले टैगिंग आवश्यक है: जैसे-

संदर्भ :
Ø धनजी प्रसाद:- भाषा विज्ञान का सैद्धांतिक अनुप्रयुक्त एवं तकनीकी पक्ष

Ø https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

Ø https://lgandlt.blogspot.in/2016/11/blog-post.html?m=0


No comments:

Post a Comment