प्रस्तावना:
प्रत्येक भाषा
के शब्द-वर्गों के भिन्न प्रकार के शब्दों को प्रणाली को समझाने के लिए कुछ
निश्चित टैग निर्धारित किए जाते हैं, जिससे कि उन शब्दों के इनपुट देने पर उनका
उचित एवं स्पष्ट परिणाम या आउटपुट(Output) प्राप्त किया जा सके। जैसे- हिंदी के
व्यक्तिवाचक संज्ञा के लिए ‘NNP’ जातिवाचक संज्ञा के लिए ‘NN’ सर्वनाम ‘PR’ मुख्य
क्रिया ‘VM’ एवं संयोजक ‘CC’ आदि के लिए टैग निर्धारित किए गए हैं। शब्द-भेद टैगिंग (Parts of Speech Tagging) से संबंधित कुछ अन्य छोटी-छोटी प्रक्रियाएं भी होती हैं जो निम्न हैं- नाम पद
चिह्नन, मुद्रा चिह्नन, दिनांक पद चिह्नन, पदबंध चिन्हन आदि।
टैगर के माध्यम से दिए गए इनपुट पाठ का दो भाषिक इकाइयों के बीच में खाली
स्थान या संभावित विराम के आधार पर शाब्दिक इकाइयों को अलग-अलग किया जाता है। इसका
विस्तृत विवरण आगे किया जा रहा है।
शब्दभेद(POS) टैगिंग:- टैगिंग का आरंभ सर्वप्रथम कार्पस टैगिंग से हुआ।
पेंसिलवेनिया विश्वविद्यालय द्वारा ‘Penn Tree Bank’ के निर्माण हेतु प्रथम टैग
सेट का विकास किया गया था जो इस प्रकार है-
Number
|
Tag
|
Description
|
1.
|
CC
|
Coordinating
conjunction
|
2.
|
CD
|
Cardinal
number
|
3.
|
DT
|
Determiner
|
4.
|
EX
|
Existential there
|
5.
|
FW
|
Foreign
word
|
6.
|
IN
|
Preposition
or subordinating conjunction
|
7.
|
JJ
|
Adjective
|
8.
|
JJR
|
Adjective,
comparative
|
9.
|
JJS
|
Adjective,
superlative
|
10.
|
LS
|
List
item marker
|
11.
|
MD
|
Modal
|
12.
|
NN
|
Noun,
singular or mass
|
13.
|
NNS
|
Noun,
plural
|
14.
|
NNP
|
Proper
noun, singular
|
15.
|
NNPS
|
Proper
noun, plural
|
16.
|
PDT
|
Predeterminer
|
17.
|
POS
|
Possessive
ending
|
18.
|
PRP
|
Personal
pronoun
|
19.
|
PRP$
|
Possessive
pronoun
|
20.
|
RB
|
Adverb
|
21.
|
RBR
|
Adverb,
comparative
|
22.
|
RBS
|
Adverb,
superlative
|
23.
|
RP
|
Particle
|
24.
|
SYM
|
Symbol
|
25.
|
TO
|
to
|
26.
|
UH
|
Interjection
|
27.
|
VB
|
Verb,
base form
|
28.
|
VBD
|
Verb,
past tense
|
29.
|
VBG
|
Verb,
gerund or present participle
|
30.
|
VBN
|
Verb,
past participle
|
31.
|
VBP
|
Verb,
non-3rd person singular present
|
32.
|
VBZ
|
Verb,
3rd person singular present
|
33.
|
WDT
|
Wh-determiner
|
34.
|
WP
|
Wh-pronoun
|
35.
|
WP$
|
Possessive
wh-pronoun
|
36.
|
WRB
|
Wh-adverb
|
शब्दों के साथ उनके
शब्दवर्ग आदि संबंधी सूचनाएं जोड़ने की प्रक्रिया टैगिंग है। आरंभ में केवल शब्दभेद
संबधी सूचनाएं ही जोड़ी जाती थीं, इस कारण इसे शब्दभेद टैगिंग कहा जाता था। प्रत्येक
भाषा में कुछ वर्ग समान होते हैं। अतः उनके टैग एक ही होने चाहिए किंतु भाषा विशेष
में पाये जाने वाले शब्दवर्गों के लिए स्वतंत्र टैग बनाये जा सकते हैं। हिंदी के
लिए IIT हैदराबाद और CIIL मैसूर द्वारा टैगसेट बनाये गए हैं। एक सामान्य हिंदी
टैगसेट इस प्रकार हो सकता है-
टैग
|
शब्दवर्ग नाम
|
हिंदी नाम
|
उदाहरण
|
NNP
|
Proper noun
|
व्यक्तिवाचक संज्ञा
|
राम, मोहन
|
NN
|
Common noun
|
जातिवाचक संज्ञा
|
लड़का, छाता
|
PR
|
Pronoun
|
सर्वनाम
|
वह, तुम
|
DT
|
Determiner
|
निर्धारक
|
यह, वह
|
VM
|
Verb Main
|
मुख्य क्रिया
|
जाना, खाता
|
JJ
|
Adjective
|
विशेषण
|
सुंदर, बुरा
|
RB
|
Adverb
|
क्रियाविशेषण
|
तेज, धीमा
|
QW
|
Question word
|
प्रश्नवाचक शब्द
|
क्या, कौन
|
UH
|
Interjection
|
विस्मयादिबोधक
|
ओह, आह
|
PP
|
Postposition
|
परसर्ग
|
ने, को
|
PT
|
Particle
|
निपात
|
ही, भी
|
NW
|
Negation word
|
नकारात्मक शब्द
|
न, नहीं
|
DE
|
Date entity
|
दिनांक पद
|
20/2/2014, 20 फर. 2014
|
NM
|
Number
|
संख्या
|
01, 23785
|
CR
|
Currency
|
मुद्रा
|
$
|
TE
|
Time entity
|
समय पद
|
12:13, 01:23 PM
|
PM
|
Punctuation mark
|
विराम चिह्न
|
; ‘
|
LS
|
Listing
|
सूचीकरण
|
1. 2.
|
CC
|
Conjunction
|
संयोजक
|
और, किंतु
|
PW
|
Postpositional word
|
परसर्गीय शब्द
|
बाद, पहले
|
VAX
|
Verb Auxiliary
|
सहायक क्रिया
|
है, था
|
VAS
|
Verb Aspectual
|
पक्षात्मक क्रिया
|
रहा, चुका
|
VEX
|
Verb Explicator
|
रंजक क्रिया
|
चल दिया, कर बैठा
|
CH
|
character
|
वर्ण
|
अ, क
|
PRP
|
Reflexive Pronoun
|
स्ववाची सर्वनाम
|
अपना, खुद
|
SFW
|
Suffix Word
|
प्रत्ययात्मक शब्द
|
वाला, कर
|
CW
|
Compound Word
|
सामासिक शब्द
|
माता-पिता, रूप-निर्माण
|
DW
|
Duplicative Word
|
द्विरुक्त शब्द
|
पहला-पहला, चलते-चलते
|
किसी पाठ की
टैगिंग में पाठ में आए हुए शब्दों के साथ उनके टैग कई प्रकार से जोड़े जा सकते हैं:
जैसे-
इस प्रकार टैग
संबंधी सूचनाएं सामान्य पाठ की तरह भी हो सकती है और प्रत्येक शब्द के साथ अलग-अलग
भी दी जा सकती हैं। जैसे-
ü इसप्रकार
/DEN/
ü वह
/PR/
ü तेज
/JJ/
ü दौड़ता
/VM/
ü है
/AUX/
जब किसी पाठ
का इनपुट(Input) दिया जाता है, तो जो सामग्री आउटपुट(Output) के रूप में प्राप्त
होती है। उसका वाक् चिह्नन हो जाने के बाद पाठ इनपुट का दो भाषिक इकाइयों के बीच
में आने वाले खाली स्थान और वाक् इनपुट में वास्तविक या संभावित विराम के आधार पर
शाब्दिक इकाइयों को अलग-अलग किया जाता है और उनकी शब्द-भेद टैगिंग की जाती है। POS
टैगिंग के आवश्यकतानुसार रूपवैज्ञानिक विश्लेषण का भी प्रयोग किया जाता है। यह
मुख्यतः दो प्रकार का होता है- रूपसाधक एवं व्युत्पादक। जैसे- ‘घोड़ा’ हिंदी भाषा
का एककोशीय शब्द है अतः इसे ‘मूल शब्द’ माना जाएगा। वाक्य में प्रयोग के आधार पर
इसके चार व्याकरणिक रुप प्राप्त होते हैं।
o घोड़ा जा रहा है: (एकवचन, प्रत्यक्ष रुप)
o घोड़े को जाने दो: (एकवचन, परसर्गीय, तिर्यक रूप)
o घोड़े जा रहे हैं: (बहुवचन, प्रत्यक्ष रूप)
o घोड़ों को जाने दो: (बहुवचन, परसर्गीय, तिर्यक
रूप)
रूपवैज्ञानिक
विश्लेषण प्रक्रिया को संपन्न करने वाली प्रणाली का नाम रूपवैज्ञानिक विश्लेषक है।
यह प्रणाली ‘घोड़ा’ के इन चारों रूपों का विश्लेषण कर ‘मूल शब्द’ घोड़ा से मैप
करेगा। जिससे कि इस शब्द की शब्द-भेद टैगिंग ‘जातिवाचक संज्ञा’ के रूप में की जा
सकेगी। रूप विश्लेषक प्रणाली में रूपविश्लेषण नियम एवं डेटाबेस(database) मुख्य
होते हैं। इसी प्रकार विभिन्न नियमों और डेटाबेस की सहायता से पाठ में आये सभी
शब्दों की शब्द-भेद टैगिंग की जाती है। इसके अलावा इसमें कुछ अन्य छोटी-छोटी
प्रक्रिया भी होती है। इनमें से कुछ प्रमुख निम्नलिखित हैं-
(1)- नाम पद चिह्नन :- व्याकरण में
प्राप्त ‘व्यक्तिवाचक संज्ञाओं’ जैसे- राम, मोहन आदि को प्राकृतिक भाषा संसाधन
प्रणालियों के विकास के क्षेत्र में इन्हें नाम पद कहा जाता है। संसाधन की
प्रक्रिया के दौरान इनका अलग से संज्ञान किया जाता है। शब्द-भेद टैगिंग के दौरान
इनका भी चिह्नन किया जाता है।
(2)- दिनांक
पद चिह्नन :-
दिनांक पदों की संरचना अन्य से भिन्न होती है।
अतः दिनांक संरचनाओं के स्वरूप के आधार पर उसे अलग से चिन्हित करने का कार्य भी
शब्द-भेद टैगिंग के दौरान किया जाता है। जैसे- dd/mm/yy और dd/mm/yyyy आदि।
(3)- बहुशब्दीय
अभिव्यक्ति संज्ञान :-
प्राकृतिक भाषा संसाधन के दौरान आयी हुई एक नई
संकल्पना बहुशब्दीय अभिव्यक्ति है। जब एक से अधिक शब्द एक
साथ रहते हुए एक ही अर्थ का प्रतिनिधित्व करते हों और अलग-अलग आने पर अलग-अलग अर्थों का, तो ऐसे शब्द-युग्म बहुशब्दीय अभिव्यक्ति के अंतर्गत
आते हैं। और इनकी पहचान आवश्यक हो जाती है। यदि इनकी पहचान नहीं होगी और यदि किसी
प्रणाली द्वारा उन्हें अलग-अलग समझ लिया जाएगा तो आगे जो भी प्रक्रिया होगी उसमें
शब्दों के मेल से प्राप्त होने वाला मूल अर्थ प्राप्त नहीं हो सकेगा। अतः इसके बाद
जो भी आउटपुट प्राप्त होगा वह वास्तविक परिणाम से भिन्न होगा। जैसे-
गोरखपाण्डेय छात्रावास, गोपालपुर, चंदन यादव आदि में प्रत्येक शब्द-युग्मों द्वारा
प्राप्त अर्थ उसमें आए शब्दों के अलग-अलग अर्थों को जोड़कर बनाए गए अर्थों से
भिन्न है। अतः शब्द-भेद टैगिंग के दौरान इनके शब्दभेद का भी संज्ञान आवश्यक हो
जाता है।
(4)- मुद्रा चिह्नन :-
विभिन्न देशों की मुद्राओं की रूप रचना एवं
बनावट भिन्न होती है। अतः उन देशों की मुद्राओं और उनसे संबंधित चिन्हों की पहचान
के लिए यह कार्य शब्द-भेद टैगिंग के दौरान किया जाता है।
(5)- विसंदिग्धीकरण :-
सभी भाषाओं का निर्माण प्राकृतिक रूप
से हुआ है इसलिए सभी भाषाएँ जटिल होती हैं। इसमें एक ही शब्द प्रयोग की स्थिति के
आधार पर कई प्रकार्यात्मक भूमिकाओं का निर्वहन करता है। इसी स्थिति में कुछ शब्दों
की संरचनात्मक कोटि और अर्थ के निर्धारण में संदिग्धता होने पर विसंदिग्धिकरण से
संबंधित टूल का भी प्रयोग किया जाता है।
(6)- पदबंध
चिन्हन:-
पद एवं पदों का विस्तार पदबंध कहलाता
है। किसी वाक्य में आए हुए पदबंधों को अलग-अलग चिन्हित करने की प्रक्रिया पदबंध
चिन्हन है। पदबंध एक शब्द का भी हो सकता है और एक से अधिक शब्दों का भी हो सकता है
यह गतिक संरचना है। पदबंधों की अलग-अलग पहचान के लिए पदबंध रचना नियमों की
आवश्यकता होती है। वाक्य में पदबंधों की पहचान के लिए कोई चिन्हक नहीं आता और न ही
पदों की संख्या के आधार पर उन्हें अलग-अलग पहचाना जा सकता है। हिंदी में परसर्ग,
पदबंध के पूरा होने के सूचक हैं किंतु सभी वाक्यों में कर्ता और कर्म के साथ
परसर्गों का प्रयोग नहीं होता इसलिए अन्य पदबंध रचना नियम भी लगाने पड़ते हैं।
किसी भी वाक्य में पदबंध चिन्ह्न के लिए पहले टैगिंग आवश्यक है: जैसे-
संदर्भ :Ø धनजी प्रसाद:- भाषा विज्ञान का सैद्धांतिक अनुप्रयुक्त
एवं तकनीकी पक्ष
Ø https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
Ø https://lgandlt.blogspot.in/2016/11/blog-post.html?m=0