कार्पस (Corpus):- ‘कार्पस’ शब्द
का अर्थ बहुत ही विस्तृत रहा है तथा इसका प्रयोग ज्ञान-विज्ञान के अनेक क्षेत्रों
में किया जाता है, किंतु आज भाषाविज्ञान और भाषा विश्लेषण के क्षेत्र में ‘कार्पस’ शब्द अत्यंत
प्रचलित है। जहाँ एक तरफ पारंपरिक रूप से किए जा रहे अध्ययन विवेचन को ‘नियम आधारित
अध्ययन’ तो दूसरी
तरफ कार्पस के आधार पर किये जा रहे अध्ययन को ‘कार्पस आधरित
अध्ययन’ नामों से
अलग-अलग जाना जाने लगा है।
भाषाविज्ञान
के क्षेत्र में कार्पस विभिन्न प्रकार के व्याकरणिक वाक्यों से युक्त पाठों का
विशाल संग्रह है जो लिखित या वाचिक रूप में अथवा दोनों रूपों में हो सकता है। कार्पस का निर्माण किसी
विशेष उद्देश्य की पूर्ति के लिए किया जाता है वैसे सामान्यत: कार्पस बहु-उद्देशीय
होते हैं।
Random house dictionary (2010) में कार्पस का अर्थ इस प्रकार दिया
गया है “a body of utterances as words or sentences, assumed to be representative
of and used for lexicon, grammatical or other linguistic analysis”.अतः इसके अनुसार कार्पस भाषिक
उक्तियों, शब्दों या वाक्यों का विशाल
संग्रह है जो प्रतिनिधिपरक होता है और शाब्दिक व्याकरणिक या अन्य भाषिक विश्लेषण
के लिए उपयुक्त होता है।
·
Oxford dictionary- A collection of written texts, especially the entire works of a
particular author or a body of writing on a particular subject.
·
Corpus
by Merriam- In this
approach, words and phrases are mapped onto a geometrical space known as a
vector space, which captures degrees of similarity among different words in
a corpus (a large collection of texts).
कार्पस का निर्माण किसी विशेष उद्देश्य की
पूर्ति के लिए किया जाता है; वैसे सामान्यत: कार्पस बहुउद्देशीय होते हैं। इनका
निर्माण संगणक में डिजिटल रूप में किया जाता है। जिस भाषा का कार्पस होता है उस
भाषा के संपूर्ण भाषा के रूपाकार (language format) का प्रतिनिधि होता है। कार्पस में
रखे जाने वाले पाठ उस भाषा के सभी क्षेत्रों से लिए जाते हैं और केवल प्रामाणिक
स्रोतों से एक संकलन किया जाता है। मशीन पठनीय पाठों का विशाल संग्रह संगणक कार्पस
कहलाता है।
कार्पस
में जिन क्षेत्रों से पाठों को लिया जाता है उनमें प्रेस, साहित्य, उपन्यास और कौशल एवं संवाद आदि
प्रमुख है। ब्रिटिश नेशनल बैंक ऑफ इंग्लिश, अमेरिकन नेशनल कार्पस ब्राउन
कार्पस, कोल्हापुर कार्पस आफ इंडियन
इंग्लिश आदि इसके प्रमुख उदाहरण है।
कार्पस के प्रकार- कार्पस कई प्रकार के होते हैं, मुख्यत: इसे तीन आधारों पर
वर्गीकृत किया जा सकता है:
1.
रूप के आधार पर- रूप के आधार पर कार्पस के तीन
प्रकार किये जा सकते हैं:
i.
लिखित कार्पस (Written Corpus)- ऐसा कार्पस जिसमें केवल लिखित भाषा
के निदर्शनों का ही संकलन किया गया हो, लिखित कार्पस कहलाता है। जैसे- अमेरिकन
नेशनल कार्पस एवं ब्रिटिश नेशनल कार्पस आदि।
ii.
वाचिक कार्पस (Spoken Corpus)- जिस कार्पस भाषा के केवल वाचिक रूप
के निदर्शनों का संकलन हो उसे वाचिक कार्पस कहते हैं।
iii.
मिश्रित कार्पस (mixed Corpus)- इस वर्ग के अंतर्गत उन सभी कार्पोरा
को रखा जा सकता है जिनमें भाषा के दोनों रूपों से निदर्शनों का संकलन किया गया हो।
2.
भाषा के आधार पर- भाषा के आधार कार्पस को मुख्यत:
तीन प्रकारों में विभाजित किया जा सकता है:
i.
एकभाषिक कार्पस(Monolingual)- वे सभी कार्पोरा जिनमें केवल एक ही
भाषा के प्रतिरूपों का संकलन हो, एकभाषिक कार्पस कहते हैं।
ii.
द्विभाषिक कार्पस(Bilingual Corpus)- जिनमें दो भाषाओं से निदर्शनों का
संकलन किया गया हो उसे द्विभाषिक कार्पस कहते हैं।
iii.
बहुभाषिक कार्पस(multilingual
Corpus)- इन कार्पोरा में अनेक भाषाओं से प्रतिरूपों
का संकलन किया जाता है। ये कार्पोरा व्यापक उद्देश्यों को ध्यान में रखकर तैयार किए
जाते हैं।
3.
एनोटेशन के आधार पर- एनोटेशन वह प्रक्रिया है जिसके
द्वारा कार्पस को भाषावैज्ञानिक विश्लेषण की दृष्टि से और अधिक उपयोगी बनाया जाता है। इसके अंतर्गत कार्पस में प्रतिरूपों, वाक्यों, पदबंधों
एवं शब्दों के साथ सूचनाओं को संकेतित कर
दिया जाता है। एनोटेशन के आधार कार्पस को दो वर्गों में रखा गया है:
i.
एनोटेटेड कार्पस- वह कार्पस जिसका एनोटेशन किया गया
हो, एनोटेटेड कार्पस कहलाता है।
ii.
अन-एनोटेटेड कार्पस- वे सभी कार्पोरा जिनका एनोटेशन
नहीं किया गया हो, उसे अन-एनोटेटेड कार्पस कहते हैं।
कार्पस की विशेषताएँ- कार्पस शब्द किसी भी संग्रह की तरफ
इंगित करता है। अत: सामान्य रूप से कहा जा सकता है कि एक से अधिक पाठों का कोई भी
संग्रह ‘कार्पस’ है, किंतु वर्तमान समय में कार्पस भाषाविज्ञान के अध्ययन-विश्लेषण
में यह एक पारिभाषिक शब्द के रूप में प्रयुक्त हो रहा है। अत: इस संदर्भ में
कार्पस की अवधारणा या इसके स्वरूप को कुछ बिंदुओं से समझा जा सकता है-
1. निदर्शनीकरण एवं प्रतिनिधित्व (Sampling
and Representativeness)
2. सीमित आकर (Finite Size)
3. मशीन-पठनीय रूप (Machine-Readable Form)
4. मानक संदर्भ (Standard Reference)
किसी भी भाषा का कार्पस उस भाषा में प्राप्त होने
वाले सभी प्रकार के पाठों का सीमित मात्रा में किंतु विशाल संग्रह होता है। यह
मशीन में तैयार किया जाता है और इसमें दिए गए संदर्भ स्पष्ट होते हैं। इस तरह की
कुछ बातों की तरफ उपर्युक्त विद्वानों द्वारा संकेत किया गया है।
कार्पस के अनुप्रयोग क्षेत्र- कार्पस किसी भाषा के लिए उसका
प्रतिनिधिपूर्ण भाषा-भंडार भंडार होता है। भाषाविज्ञान, संगणक भाषाविज्ञान और भाषा
प्रौद्योगिकी के अनेक अनुप्रयुक्त क्षेत्रों में कार्पस का उपयोग आधार सामग्री के
रूप में किया जा रहा है। कार्पस के अनुप्रयोग क्षेत्र निम्न इस प्रकार हैं-
मशीनी अनुवाद में कार्पस का उपयोग
व्यापक स्तर पर किया जा रहा है। मशीनी अनुवाद की दो उपागमों- सांख्यिकिय आधारित और
उदाहरण आधारित में कार्पस का उपयोग आधार स्रोत के रूप में किया जाता है। वर्तमान
समय में मशीनी अनुवाद क्षेत्रों में नियम आधारित प्रणालियों की तुलना में
कार्पस-आधारित मशीनी अनुवाद प्रणालियाँ अधिक सफल है।
द्विभाषिक कार्पोरा या सामानांतर
कार्पोरा आदि का निर्माण होने से यह प्रणालियाँ और अधिक सक्षम हुई हैं जिनकी
शुद्धता और अनुवाद क्षमता सामान्य प्रणालियों की तुलना में अधिक है। अतः वर्तमान
समय में कार्पस किसी न किसी रूप में मशीनी अनुवाद के क्षेत्र में आधारभूत रूप से
कार्य कर रहा है, और इसमें
इसकी सबसे अधिक उपयोगिता देखी जाती है।
- वाक् प्रौद्योगिकी- वाक् प्रौद्योगिकी के अनुप्रयोग क्षेत्रों- वाक् से पाठ, पाठ से वाक् एवं वाक् पहचानक से संबंधित प्रणालियों का विकास यदि निदर्शनों को आधार बनाते हुए किया जाता हो तो इसमें कार्पस की आवश्यकता पड़ती है।
- सूचना पुन:प्राप्ति- कहीं पर रखे हुए डाटा के विशाल संग्रह, में से आवश्यक सूचनाओं को खोजकर प्रयोगकर्ता को प्रदान करना सूचना पुन: प्राप्ति/प्रत्ययन है। इस क्षेत्र में कार्पस के आधार पर ज्ञान संरचनाओं (Knowledge structure) का निर्माण किया जाता है। ज्ञान संरचनाओं (Knowledge structure) का उपयोग सूचना पुन: प्राप्त करने के लिए किया जाता है। इसी प्रकार खोज-विस्तार के लिए भी कार्पस आधारित प्रणालियों का विकास किया गया है।
संदर्भ :
- प्रसाद,धनजी .(2014). ‘कार्पस भाषाविज्ञान’ प्रिय साहित्य सदन दिल्ली
- प्रसाद, धनजी .(2011). ‘भाषाविज्ञान का सैद्धांतिक अनुप्रयुक्त एवं तकनीकी पक्ष’ प्रिय साहित्य सदन दिल्ली
- मल्होत्रा, विजय. ‘कंप्यूटर के भाषिक अनुप्रयोग’
- https://en.oxforddictionaries.com/definition/corpus
- https://www.merriam-webster.com/dictionary/corpus
- https://www.merriam-webster.com/dictionary/Corpus%20Christi
No comments:
Post a Comment