Sunday, July 10, 2022

कार्पस, कार्पस के प्रकार और उनके अनुप्रयोग क्षेत्र (Corpus, Types of corpus and their Application areas)

 

कार्पस (Corpus):- कार्पस’ शब्द का अर्थ बहुत ही विस्तृत रहा है तथा इसका प्रयोग ज्ञान-विज्ञान के अनेक क्षेत्रों में किया जाता है, किंतु आज भाषाविज्ञान और भाषा विश्लेषण के क्षेत्र में कार्पस शब्द अत्यंत प्रचलित है। जहाँ एक तरफ पारंपरिक रूप से किए जा रहे अध्ययन विवेचन को नियम आधारित अध्ययन तो दूसरी तरफ कार्पस के आधार पर किये जा रहे अध्ययन को कार्पस आधरित अध्ययन नामों से अलग-अलग जाना जाने लगा है।

        भाषाविज्ञान के क्षेत्र में कार्पस विभिन्न प्रकार के व्याकरणिक वाक्यों से युक्त पाठों का विशाल संग्रह है जो लिखित या वाचिक रूप में अथवा दोनों रूपों में हो सकता है। कार्पस का निर्माण किसी विशेष उद्देश्य की पूर्ति के लिए किया जाता है वैसे सामान्यत: कार्पस बहु-उद्देशीय होते हैं।

Random house dictionary (2010) में कार्पस का अर्थ इस प्रकार दिया गया है “a body of utterances as words or sentences, assumed to be representative of and used for lexicon, grammatical or other linguistic analysis”.अतः इसके अनुसार कार्पस भाषिक उक्तियों, शब्दों या वाक्यों का विशाल संग्रह है जो प्रतिनिधिपरक होता है और शाब्दिक व्याकरणिक या अन्य भाषिक विश्लेषण के लिए उपयुक्त होता है।

·       Oxford dictionary- A collection of written texts, especially the entire works of a particular author or a body of writing on a particular subject.

·       Corpus by Merriam- In this approach, words and phrases are mapped onto a geometrical space known as a vector space, which captures degrees of similarity among different words in a corpus (a large collection of texts).

           कार्पस का निर्माण किसी विशेष उद्देश्य की पूर्ति के लिए किया जाता है; वैसे सामान्यत: कार्पस बहुउद्देशीय होते हैं। इनका निर्माण संगणक में डिजिटल रूप में किया जाता है। जिस भाषा का कार्पस होता है उस भाषा के संपूर्ण भाषा के रूपाकार (language format) का प्रतिनिधि होता है। कार्पस में रखे जाने वाले पाठ उस भाषा के सभी क्षेत्रों से लिए जाते हैं और केवल प्रामाणिक स्रोतों से एक संकलन किया जाता है। मशीन पठनीय पाठों का विशाल संग्रह संगणक कार्पस कहलाता है।

          कार्पस में जिन क्षेत्रों से पाठों को लिया जाता है उनमें प्रेस, साहित्य, उपन्यास और कौशल एवं संवाद आदि प्रमुख है। ब्रिटिश नेशनल बैंक ऑफ इंग्लिश, अमेरिकन नेशनल कार्पस ब्राउन कार्पस, कोल्हापुर कार्पस आफ इंडियन इंग्लिश आदि इसके प्रमुख उदाहरण है।

कार्पस के प्रकार- कार्पस कई प्रकार के होते हैं, मुख्यत: इसे तीन आधारों पर वर्गीकृत किया जा सकता है:

1.     रूप के आधार पर- रूप के आधार पर कार्पस के तीन प्रकार किये जा सकते हैं:

                               i.            लिखित कार्पस (Written Corpus)- ऐसा कार्पस जिसमें केवल लिखित भाषा के निदर्शनों का ही संकलन किया गया हो, लिखित कार्पस कहलाता है। जैसे- अमेरिकन नेशनल कार्पस एवं ब्रिटिश नेशनल कार्पस आदि।

                             ii.            वाचिक कार्पस (Spoken Corpus)- जिस कार्पस भाषा के केवल वाचिक रूप के निदर्शनों का संकलन हो उसे वाचिक कार्पस कहते हैं।

                          iii.            मिश्रित कार्पस (mixed Corpus)- इस वर्ग के अंतर्गत उन सभी कार्पोरा को रखा जा सकता है जिनमें भाषा के दोनों रूपों से निदर्शनों का संकलन किया गया हो।

2.     भाषा के आधार पर- भाषा के आधार कार्पस को मुख्यत: तीन प्रकारों में विभाजित किया जा सकता है:

                               i.            एकभाषिक कार्पस(Monolingual)- वे सभी कार्पोरा जिनमें केवल एक ही भाषा के प्रतिरूपों का संकलन हो, एकभाषिक कार्पस कहते हैं।

                            ii.            द्विभाषिक कार्पस(Bilingual Corpus)- जिनमें दो भाषाओं से निदर्शनों का संकलन किया गया हो उसे द्विभाषिक कार्पस कहते हैं।

                          iii.            बहुभाषिक कार्पस(multilingual Corpus)- इन कार्पोरा में अनेक भाषाओं से प्रतिरूपों का संकलन किया जाता है। ये कार्पोरा व्यापक उद्देश्यों को ध्यान में रखकर तैयार किए जाते हैं।

3.     एनोटेशन के आधार पर- एनोटेशन वह प्रक्रिया है जिसके द्वारा कार्पस को भाषावैज्ञानिक विश्लेषण की दृष्टि से और अधिक उपयोगी बनाया जाता है। इसके अंतर्गत कार्पस में प्रतिरूपों, वाक्यों, पदबंधों एवं  शब्दों के साथ सूचनाओं को संकेतित कर दिया जाता है। एनोटेशन के आधार कार्पस को दो वर्गों में रखा गया है:

                               i.            एनोटेटेड कार्पस- वह कार्पस जिसका एनोटेशन किया गया हो, एनोटेटेड कार्पस कहलाता है।

                             ii.            अन-एनोटेटेड कार्पस- वे सभी कार्पोरा जिनका एनोटेशन नहीं किया गया हो, उसे अन-एनोटेटेड कार्पस कहते हैं।

 

कार्पस की विशेषताएँ- कार्पस शब्द किसी भी संग्रह की तरफ इंगित करता है। अत: सामान्य रूप से कहा जा सकता है कि एक से अधिक पाठों का कोई भी संग्रह ‘कार्पस’ है, किंतु वर्तमान समय में कार्पस भाषाविज्ञान के अध्ययन-विश्लेषण में यह एक पारिभाषिक शब्द के रूप में प्रयुक्त हो रहा है। अत: इस संदर्भ में कार्पस की अवधारणा या इसके स्वरूप को कुछ बिंदुओं से समझा जा सकता है-

1. निदर्शनीकरण एवं प्रतिनिधित्व (Sampling and Representativeness)

2. सीमित आकर (Finite Size)

3. मशीन-पठनीय रूप (Machine-Readable Form)

4. मानक संदर्भ (Standard Reference)

किसी भी भाषा का कार्पस उस भाषा में प्राप्त होने वाले सभी प्रकार के पाठों का सीमित मात्रा में किंतु विशाल संग्रह होता है। यह मशीन में तैयार किया जाता है और इसमें दिए गए संदर्भ स्पष्ट होते हैं। इस तरह की कुछ बातों की तरफ उपर्युक्त विद्वानों द्वारा संकेत किया गया है।

 

कार्पस के अनुप्रयोग क्षेत्र- कार्पस किसी भाषा के लिए उसका प्रतिनिधिपूर्ण भाषा-भंडार भंडार होता है। भाषाविज्ञान, संगणक भाषाविज्ञान और भाषा प्रौद्योगिकी के अनेक अनुप्रयुक्त क्षेत्रों में कार्पस का उपयोग आधार सामग्री के रूप में किया जा रहा है। कार्पस के अनुप्रयोग क्षेत्र निम्न इस प्रकार हैं-

  •  मशीनी अनुवाद- स्रोतभाषा के पाठ का लक्ष्य भाषा के पाठ में रूपांतरण जब मशीन के माध्यम से किया जाता है तो इसे मशीनी अनुवाद कहते हैं।

        मशीनी अनुवाद में कार्पस का उपयोग व्यापक स्तर पर किया जा रहा है। मशीनी अनुवाद की दो उपागमों- सांख्यिकिय आधारित और उदाहरण आधारित में कार्पस का उपयोग आधार स्रोत के रूप में किया जाता है। वर्तमान समय में मशीनी अनुवाद क्षेत्रों में नियम आधारित प्रणालियों की तुलना में कार्पस-आधारित मशीनी अनुवाद प्रणालियाँ अधिक सफल है।

          द्विभाषिक कार्पोरा या सामानांतर कार्पोरा आदि का निर्माण होने से यह प्रणालियाँ और अधिक सक्षम हुई हैं जिनकी शुद्धता और अनुवाद क्षमता सामान्य प्रणालियों की तुलना में अधिक है। अतः वर्तमान समय में कार्पस किसी न किसी रूप में मशीनी अनुवाद के क्षेत्र में आधारभूत रूप से कार्य कर रहा है, और इसमें इसकी सबसे अधिक उपयोगिता देखी जाती है।

  •  संगणकीय कोशविज्ञान- यह भाषावैज्ञानिक ज्ञान के व्यावहारिक अनुप्रयोग के क्षेत्र ‘कोशविज्ञान’ का तकनीकी या संगणकीय पक्ष है। संगणकीय कोशविज्ञान का संबंध संगणक में कोशों का अध्ययन, विश्लेषण आदि से है। संगणक में शब्दकोश निर्माण एवं उनकी प्रयुक्तियों(entries)तथा उनसे संबंधित सूचनाओं को प्राप्त करने और उनका उपयोग करने में कार्पस बहुत ही उपयोगी सिद्ध हुए हैं। कार्पस की सहायता से प्रयुक्तियों से संबंधित प्रामाणिक पाठ(authentic text/documents) सरलतापूर्वक प्राप्त कर लिए जाते हैं।
  •  भाषा शिक्षण और संगणक साधित भाषा शिक्षण- भाषा शिक्षण आरंभ से ही भाषाविज्ञान क सबसे बड़ा अनुप्रयुक्त क्षेत्र रहा है। इस क्षेत्र को अधिक सरल एवं मनोरंजन बनाने का सदैव प्रयास किया गया है। इस क्षेत्र में संगणक का उपयोग इस दिशा में क्रांतिकारी परिवर्तन है। किसी भी भाषा का अन्य भाषा के रूप में शिक्षण हेतु अथवा संगणक साधितशिक्षण में कार्पस अत्यंत उपयोगी सिद्ध हुई है। कार्पस से उस भाषा के शब्दों पदबंधों, वाक्यों आदि की जटिल संरचना एवं उनके संदर्भों को सफलतापूर्वक प्राप्त किया जा सकता है। इसका उपयोग भाषा शिक्षक शिक्षण के समय करते हैं किंतु इसके लिए कार्पसके उपयोग और कार्पस से प्राप्त सूचनाओं के सही मूल्यांकन की क्षमता भाषा शिक्षक में होनी चाहिए।
  • वाक् प्रौद्योगिकी- वाक् प्रौद्योगिकी के अनुप्रयोग क्षेत्रों- वाक् से पाठ, पाठ से वाक् एवं वाक् पहचानक से संबंधित प्रणालियों का विकास यदि निदर्शनों को आधार बनाते हुए किया जाता हो तो इसमें कार्पस की आवश्यकता पड़ती है।
  • सूचना पुन:प्राप्ति- कहीं पर रखे हुए डाटा के विशाल संग्रह, में से आवश्यक सूचनाओं को खोजकर प्रयोगकर्ता को प्रदान करना सूचना पुन: प्राप्ति/प्रत्ययन है। इस क्षेत्र में कार्पस के आधार पर ज्ञान संरचनाओं (Knowledge structure) का निर्माण किया जाता है। ज्ञान संरचनाओं (Knowledge structure) का उपयोग सूचना पुन: प्राप्त करने के लिए किया जाता है। इसी प्रकार खोज-विस्तार के लिए भी कार्पस आधारित प्रणालियों का विकास किया गया है।
  •  पुरातत्त्व पाठों के खोज एवं अध्ययन- वर्तमान पाठ कार्पोराका उपयोग ऐतिहासिक पाठों और लेखों के अध्ययन में किया जाने लगा है। जैसे- decipher, ancient or in biblical scholarship आदि में खोज हेतु किया जाता है।
  •  प्रश्न-उत्तर प्रणालियाँ- प्रश्न-उत्तर प्रणालियाँ, ऐसी प्रणालियाँ है जिसमें प्राकृतिक भाषा में दिए गए प्रश्नों का उत्तर स्वचालित रूप से प्राकृतिक भाषा में ही दिया जाता है। इनकी आवश्यकता मुख्यतः सूचना पुनरप्राप्ति के क्षेत्र में पड़ती है। सामान्यत: प्रश्न-उत्तर प्रणालियों में प्रश्नों के अनेक प्रकारों को संकलित किया जाता है; जैसे- तथ्य, परिभाषा, परिकल्पना आधारित प्रश्न आदि। इन प्रणालियों के विकास में पूर्व संरचित डाटाबेस और कार्पस  संकलनों का प्रयोग किया जाता है।

संदर्भ :


No comments:

Post a Comment