Showing posts with label भाषा प्रौद्योगिकी. Show all posts
Showing posts with label भाषा प्रौद्योगिकी. Show all posts

Sunday, July 10, 2022

कार्पस, कार्पस के प्रकार और उनके अनुप्रयोग क्षेत्र (Corpus, Types of corpus and their Application areas)

 

कार्पस (Corpus):- कार्पस’ शब्द का अर्थ बहुत ही विस्तृत रहा है तथा इसका प्रयोग ज्ञान-विज्ञान के अनेक क्षेत्रों में किया जाता है, किंतु आज भाषाविज्ञान और भाषा विश्लेषण के क्षेत्र में कार्पस शब्द अत्यंत प्रचलित है। जहाँ एक तरफ पारंपरिक रूप से किए जा रहे अध्ययन विवेचन को नियम आधारित अध्ययन तो दूसरी तरफ कार्पस के आधार पर किये जा रहे अध्ययन को कार्पस आधरित अध्ययन नामों से अलग-अलग जाना जाने लगा है।

        भाषाविज्ञान के क्षेत्र में कार्पस विभिन्न प्रकार के व्याकरणिक वाक्यों से युक्त पाठों का विशाल संग्रह है जो लिखित या वाचिक रूप में अथवा दोनों रूपों में हो सकता है। कार्पस का निर्माण किसी विशेष उद्देश्य की पूर्ति के लिए किया जाता है वैसे सामान्यत: कार्पस बहु-उद्देशीय होते हैं।

Random house dictionary (2010) में कार्पस का अर्थ इस प्रकार दिया गया है “a body of utterances as words or sentences, assumed to be representative of and used for lexicon, grammatical or other linguistic analysis”.अतः इसके अनुसार कार्पस भाषिक उक्तियों, शब्दों या वाक्यों का विशाल संग्रह है जो प्रतिनिधिपरक होता है और शाब्दिक व्याकरणिक या अन्य भाषिक विश्लेषण के लिए उपयुक्त होता है।

·       Oxford dictionary- A collection of written texts, especially the entire works of a particular author or a body of writing on a particular subject.

·       Corpus by Merriam- In this approach, words and phrases are mapped onto a geometrical space known as a vector space, which captures degrees of similarity among different words in a corpus (a large collection of texts).

           कार्पस का निर्माण किसी विशेष उद्देश्य की पूर्ति के लिए किया जाता है; वैसे सामान्यत: कार्पस बहुउद्देशीय होते हैं। इनका निर्माण संगणक में डिजिटल रूप में किया जाता है। जिस भाषा का कार्पस होता है उस भाषा के संपूर्ण भाषा के रूपाकार (language format) का प्रतिनिधि होता है। कार्पस में रखे जाने वाले पाठ उस भाषा के सभी क्षेत्रों से लिए जाते हैं और केवल प्रामाणिक स्रोतों से एक संकलन किया जाता है। मशीन पठनीय पाठों का विशाल संग्रह संगणक कार्पस कहलाता है।

          कार्पस में जिन क्षेत्रों से पाठों को लिया जाता है उनमें प्रेस, साहित्य, उपन्यास और कौशल एवं संवाद आदि प्रमुख है। ब्रिटिश नेशनल बैंक ऑफ इंग्लिश, अमेरिकन नेशनल कार्पस ब्राउन कार्पस, कोल्हापुर कार्पस आफ इंडियन इंग्लिश आदि इसके प्रमुख उदाहरण है।

कार्पस के प्रकार- कार्पस कई प्रकार के होते हैं, मुख्यत: इसे तीन आधारों पर वर्गीकृत किया जा सकता है:

1.     रूप के आधार पर- रूप के आधार पर कार्पस के तीन प्रकार किये जा सकते हैं:

                               i.            लिखित कार्पस (Written Corpus)- ऐसा कार्पस जिसमें केवल लिखित भाषा के निदर्शनों का ही संकलन किया गया हो, लिखित कार्पस कहलाता है। जैसे- अमेरिकन नेशनल कार्पस एवं ब्रिटिश नेशनल कार्पस आदि।

                             ii.            वाचिक कार्पस (Spoken Corpus)- जिस कार्पस भाषा के केवल वाचिक रूप के निदर्शनों का संकलन हो उसे वाचिक कार्पस कहते हैं।

                          iii.            मिश्रित कार्पस (mixed Corpus)- इस वर्ग के अंतर्गत उन सभी कार्पोरा को रखा जा सकता है जिनमें भाषा के दोनों रूपों से निदर्शनों का संकलन किया गया हो।

2.     भाषा के आधार पर- भाषा के आधार कार्पस को मुख्यत: तीन प्रकारों में विभाजित किया जा सकता है:

                               i.            एकभाषिक कार्पस(Monolingual)- वे सभी कार्पोरा जिनमें केवल एक ही भाषा के प्रतिरूपों का संकलन हो, एकभाषिक कार्पस कहते हैं।

                            ii.            द्विभाषिक कार्पस(Bilingual Corpus)- जिनमें दो भाषाओं से निदर्शनों का संकलन किया गया हो उसे द्विभाषिक कार्पस कहते हैं।

                          iii.            बहुभाषिक कार्पस(multilingual Corpus)- इन कार्पोरा में अनेक भाषाओं से प्रतिरूपों का संकलन किया जाता है। ये कार्पोरा व्यापक उद्देश्यों को ध्यान में रखकर तैयार किए जाते हैं।

3.     एनोटेशन के आधार पर- एनोटेशन वह प्रक्रिया है जिसके द्वारा कार्पस को भाषावैज्ञानिक विश्लेषण की दृष्टि से और अधिक उपयोगी बनाया जाता है। इसके अंतर्गत कार्पस में प्रतिरूपों, वाक्यों, पदबंधों एवं  शब्दों के साथ सूचनाओं को संकेतित कर दिया जाता है। एनोटेशन के आधार कार्पस को दो वर्गों में रखा गया है:

                               i.            एनोटेटेड कार्पस- वह कार्पस जिसका एनोटेशन किया गया हो, एनोटेटेड कार्पस कहलाता है।

                             ii.            अन-एनोटेटेड कार्पस- वे सभी कार्पोरा जिनका एनोटेशन नहीं किया गया हो, उसे अन-एनोटेटेड कार्पस कहते हैं।

 

कार्पस की विशेषताएँ- कार्पस शब्द किसी भी संग्रह की तरफ इंगित करता है। अत: सामान्य रूप से कहा जा सकता है कि एक से अधिक पाठों का कोई भी संग्रह ‘कार्पस’ है, किंतु वर्तमान समय में कार्पस भाषाविज्ञान के अध्ययन-विश्लेषण में यह एक पारिभाषिक शब्द के रूप में प्रयुक्त हो रहा है। अत: इस संदर्भ में कार्पस की अवधारणा या इसके स्वरूप को कुछ बिंदुओं से समझा जा सकता है-

1. निदर्शनीकरण एवं प्रतिनिधित्व (Sampling and Representativeness)

2. सीमित आकर (Finite Size)

3. मशीन-पठनीय रूप (Machine-Readable Form)

4. मानक संदर्भ (Standard Reference)

किसी भी भाषा का कार्पस उस भाषा में प्राप्त होने वाले सभी प्रकार के पाठों का सीमित मात्रा में किंतु विशाल संग्रह होता है। यह मशीन में तैयार किया जाता है और इसमें दिए गए संदर्भ स्पष्ट होते हैं। इस तरह की कुछ बातों की तरफ उपर्युक्त विद्वानों द्वारा संकेत किया गया है।

 

कार्पस के अनुप्रयोग क्षेत्र- कार्पस किसी भाषा के लिए उसका प्रतिनिधिपूर्ण भाषा-भंडार भंडार होता है। भाषाविज्ञान, संगणक भाषाविज्ञान और भाषा प्रौद्योगिकी के अनेक अनुप्रयुक्त क्षेत्रों में कार्पस का उपयोग आधार सामग्री के रूप में किया जा रहा है। कार्पस के अनुप्रयोग क्षेत्र निम्न इस प्रकार हैं-

  •  मशीनी अनुवाद- स्रोतभाषा के पाठ का लक्ष्य भाषा के पाठ में रूपांतरण जब मशीन के माध्यम से किया जाता है तो इसे मशीनी अनुवाद कहते हैं।

        मशीनी अनुवाद में कार्पस का उपयोग व्यापक स्तर पर किया जा रहा है। मशीनी अनुवाद की दो उपागमों- सांख्यिकिय आधारित और उदाहरण आधारित में कार्पस का उपयोग आधार स्रोत के रूप में किया जाता है। वर्तमान समय में मशीनी अनुवाद क्षेत्रों में नियम आधारित प्रणालियों की तुलना में कार्पस-आधारित मशीनी अनुवाद प्रणालियाँ अधिक सफल है।

          द्विभाषिक कार्पोरा या सामानांतर कार्पोरा आदि का निर्माण होने से यह प्रणालियाँ और अधिक सक्षम हुई हैं जिनकी शुद्धता और अनुवाद क्षमता सामान्य प्रणालियों की तुलना में अधिक है। अतः वर्तमान समय में कार्पस किसी न किसी रूप में मशीनी अनुवाद के क्षेत्र में आधारभूत रूप से कार्य कर रहा है, और इसमें इसकी सबसे अधिक उपयोगिता देखी जाती है।

  •  संगणकीय कोशविज्ञान- यह भाषावैज्ञानिक ज्ञान के व्यावहारिक अनुप्रयोग के क्षेत्र ‘कोशविज्ञान’ का तकनीकी या संगणकीय पक्ष है। संगणकीय कोशविज्ञान का संबंध संगणक में कोशों का अध्ययन, विश्लेषण आदि से है। संगणक में शब्दकोश निर्माण एवं उनकी प्रयुक्तियों(entries)तथा उनसे संबंधित सूचनाओं को प्राप्त करने और उनका उपयोग करने में कार्पस बहुत ही उपयोगी सिद्ध हुए हैं। कार्पस की सहायता से प्रयुक्तियों से संबंधित प्रामाणिक पाठ(authentic text/documents) सरलतापूर्वक प्राप्त कर लिए जाते हैं।
  •  भाषा शिक्षण और संगणक साधित भाषा शिक्षण- भाषा शिक्षण आरंभ से ही भाषाविज्ञान क सबसे बड़ा अनुप्रयुक्त क्षेत्र रहा है। इस क्षेत्र को अधिक सरल एवं मनोरंजन बनाने का सदैव प्रयास किया गया है। इस क्षेत्र में संगणक का उपयोग इस दिशा में क्रांतिकारी परिवर्तन है। किसी भी भाषा का अन्य भाषा के रूप में शिक्षण हेतु अथवा संगणक साधितशिक्षण में कार्पस अत्यंत उपयोगी सिद्ध हुई है। कार्पस से उस भाषा के शब्दों पदबंधों, वाक्यों आदि की जटिल संरचना एवं उनके संदर्भों को सफलतापूर्वक प्राप्त किया जा सकता है। इसका उपयोग भाषा शिक्षक शिक्षण के समय करते हैं किंतु इसके लिए कार्पसके उपयोग और कार्पस से प्राप्त सूचनाओं के सही मूल्यांकन की क्षमता भाषा शिक्षक में होनी चाहिए।
  • वाक् प्रौद्योगिकी- वाक् प्रौद्योगिकी के अनुप्रयोग क्षेत्रों- वाक् से पाठ, पाठ से वाक् एवं वाक् पहचानक से संबंधित प्रणालियों का विकास यदि निदर्शनों को आधार बनाते हुए किया जाता हो तो इसमें कार्पस की आवश्यकता पड़ती है।
  • सूचना पुन:प्राप्ति- कहीं पर रखे हुए डाटा के विशाल संग्रह, में से आवश्यक सूचनाओं को खोजकर प्रयोगकर्ता को प्रदान करना सूचना पुन: प्राप्ति/प्रत्ययन है। इस क्षेत्र में कार्पस के आधार पर ज्ञान संरचनाओं (Knowledge structure) का निर्माण किया जाता है। ज्ञान संरचनाओं (Knowledge structure) का उपयोग सूचना पुन: प्राप्त करने के लिए किया जाता है। इसी प्रकार खोज-विस्तार के लिए भी कार्पस आधारित प्रणालियों का विकास किया गया है।
  •  पुरातत्त्व पाठों के खोज एवं अध्ययन- वर्तमान पाठ कार्पोराका उपयोग ऐतिहासिक पाठों और लेखों के अध्ययन में किया जाने लगा है। जैसे- decipher, ancient or in biblical scholarship आदि में खोज हेतु किया जाता है।
  •  प्रश्न-उत्तर प्रणालियाँ- प्रश्न-उत्तर प्रणालियाँ, ऐसी प्रणालियाँ है जिसमें प्राकृतिक भाषा में दिए गए प्रश्नों का उत्तर स्वचालित रूप से प्राकृतिक भाषा में ही दिया जाता है। इनकी आवश्यकता मुख्यतः सूचना पुनरप्राप्ति के क्षेत्र में पड़ती है। सामान्यत: प्रश्न-उत्तर प्रणालियों में प्रश्नों के अनेक प्रकारों को संकलित किया जाता है; जैसे- तथ्य, परिभाषा, परिकल्पना आधारित प्रश्न आदि। इन प्रणालियों के विकास में पूर्व संरचित डाटाबेस और कार्पस  संकलनों का प्रयोग किया जाता है।

संदर्भ :


Sunday, January 16, 2022

भाषा संबंधी सॉफ्टवेयर विकास

 

भाषा संबंधी सॉफ्टवेयर विकास प्रणाली में सबसे पहले हमें यह जानना होगा कि प्रोग्राम क्या होता है?इसके बाद हमें यह जानना होगा कि प्रोग्रामिंग क्या है? प्रोग्रामिंग एक प्रक्रिया है जिसमें विभिन्न प्रोग्रामिंग भाषाओं के माध्यम से विभिन्न प्रकार के कार्यों को संपन्न किया जाता है इसे भी जानना होगा।

प्रोग्रामिंग भाषाओं के कुछ प्रकार भी होते हैं, जैसे--

Ø    Proceduralprogramminglanguage

Ø    Functionalprogramminglanguage

Ø    Object Orientedprogramminglanguage

प्रोग्रामिंग भाषाएँ निम्न होती हैं-C#,Java, Pascal, Basic, C++ आदि।

फिर सॉफ्टवेयर क्या है इसके कितने प्रकर होते हैं? यह भी जानना होगा।

सॉफ्टवेयर दो प्रकार के होते हैं- (1) सिस्टम सॉफ्टवेयर (2) एप्लिकेशन सॉफ्टवेयर

भाषा संबंधी सॉफ्टवेयर विकास केमूल मेंNLP है। यह एक प्रक्रिया है इस प्रक्रिया के द्वारा ही मानवीय भाषा को मशीन में स्थापित किया जाता है।

आगे इनसे संबंधित पहलुओं पर विस्तृत वर्णन किया जा रहा है।

 

प्रोग्राम (Program):-

किसी विशेष कार्य को संपन्न करने के लिए चरणबद्ध तरीके से दिया गया निर्देश, जो उस कार्य का सही-सही आउटपुट दे/प्रदर्शित करे, प्रोग्राम कहलाता है।

एक दूसरी परिभाषा इस प्रकार है-

किसी उद्देश्य विशेष को प्राप्त करने के लिए मशीन को क्रमबद्ध, चरणों में दिये गए निर्देशों का समूह प्रोग्राम है।

इसके मुख्यतः छः बिंदु विचारणीय हैं-

ü    मशीन

ü    उद्देश्य विशेष

ü    क्रमबद्ध

ü    चरण

ü    निर्देश

ü    समूह

 

प्रोग्रामिंग (Programming):-

          प्रोग्रामिंग एक प्रक्रिया है। इसके द्वारा ही प्रोग्राम का निर्माण किया जाता है और इसके आधार पर ही कोई प्रणाली कार्य करती है।

प्रोग्रामिंग में विभिन्न प्रोग्रामिंग भाषाओं का प्रयोग करके प्रोग्राम को निर्देश दिया जाता है। जिनका आगे वर्णन किया जा रहा है –


प्रोग्रामिंग भाषा (Programming Language):-

       प्रोग्रामिंग भाषा एक ऐसी भाषा है जिसके माध्यम से कंप्यूटर को निर्देश दिये जाते हैं और प्रोग्रामों का विकास किया जाता है।

कुछ प्रोग्रामिंग भाषाएँ निम्न हैं- C#, Pascal, Java, C, C++, Java script, Basic,

FORTRAN.


प्रोग्रामिंग भाषा के प्रकार:-

Ø    ProceduralProgrammingLanguage:-

ऐसी प्रोग्रामिंग भाषाएँ जिनमें चरणों कीश्रृंखला बनाते हुए प्रोग्राम निर्मित किए जाते हैं, इसमें दो बिंदु मुख्य हैं-

ü    चरणों की श्रृंखला।

ü    कथनों, आदेशों और प्रकार्यों का व्यवस्थित क्रम।

उदा. C language, C# language.


Ø    FunctionalProgrammingLanguage:-

ऐसी प्रोग्रामिंग भाषाएँ जिनमें प्रक्रिया के बजाय प्रकार्य को केंद्र में रखा जाता है। इसमें स्थिति में परिवर्तन पर ध्यान देने की जगह गणितीय प्रकार्यों पर विशेष ध्यान दिया जाता है। इनका प्रयोग अधिकतर व्यावसायिक अनुप्रयोगों में किया जाता है।

Ø    ObjectOriented ProgrammingLanguage:-

यहवह प्रोग्रामिंग भाषा है, जिसमें object को केंद्र में रखा जाता है।object वह इकाई है जिसमें कुछ properties होती है और जिस पर कुछ events किए जाते हैं। यह किसी भी प्रकार का डाटा (Data), structure,प्रकार्य एवं method आदि कुछ भी हो सकता है।

भाषा संसाधन और सॉफ्टवेयर (Language proccesing & Software):-

सॉफ्टवेयर कंप्यूटर प्रोग्रामों का संग्रह है जो कंप्यूटर को निर्देश प्रदान करता है कि प्रोग्राम को क्या कब और कैसे करना है?अर्थात सॉफ्टवेयर उपयोगकर्ता और कंप्यूटरके बीच इंटरफ़ेस का कार्य करता है। यह निर्देशों का एक सेट होता है। इसके द्वारा हमें वांक्षित आउटपुट मिलते हैं।

इसके दो प्रकार हैं-


सिस्टम सॉफ्टवेयर का संबंध सीधे कंप्यूटर से होता है। भाषा संबंधी प्रणाली विकास में एप्लिकेशन सॉफ्टवेयर का प्रयोग किया जाता है। इसलिए आगे एप्लिकेशन सॉफ्टवेयर पर चर्चा किया जा रहा है।

एप्लिकेशन सॉफ्टवेयर (Application Software):-

भाषा संबंधी सॉफ्टवेयर एप्लिकेशन सॉफ्टवेयर ही होते हैं जो उपयोगकर्ता को एकल या एकाधिक कार्य करने में मदद करता है। यह विशिष्ट उपयोगों या अनुप्रयोगों के लिए डिजाइन किए गए निर्देशों या कार्य-क्रमों का एक सेट होता है। इस सॉफ्टवेयर को उपयोगकर्ता प्रोग्राम भी कहा जाता है।

भाषा संबंधी सॉफ्टवेयर विकास:-

भाषा संबंधी सॉफ्टवेयर विकास में प्राकृतिक भाषा संसाधन महत्वपूर्ण है। इसलिए हमें प्रोग्राम, प्रोग्रामिंग व प्रोग्रामिंग भाषा के अलावा NLP को जानना भी महत्वपूर्ण है।

प्राकृतिक भाषा संसाधन (Natural Language proccesing):-

मानव भाषा को मशीन में इस प्रकार से स्थापित करना कि वह भाषा संबंधी कार्य आसानी से संपन्न कर सके, प्राकृतिक भाषा संसाधन कहलाता है। यह एक प्रक्रिया है इसमें प्राकृतिक भाषा का संसाधन होता है। इसे इस आरेख के माध्यम से समझा जा सकता है –


 

भाषा संबंधी सॉफ्टवेयर मुख्यतः दो आधारों पर बनाए जाते हैं-

v   नियम आधारित

v   डाटाबेस आधारित

नियम आधारित (Rule Based):-

                      नियम आधारित भाषा संबंधी सॉफ्टवेयर नियमों के आधार पर कार्य करते हैं। जिस प्रकार के नियम प्रोग्राम को दिये जाते हैं, वह सॉफ्टवेयर उसी कार्य को संपन्न करता है।

इसमें सबसे पहले एक Formप्रारूप तैयार करते हैं फिर किसी प्रोग्रामिंग भाषा के मधायम से प्रोग्राम को निर्देशित करते हैं। प्रोग्राम को जिस प्रकार का निर्देश देते हैं, वह उस कार्य को संपन्न करता है। जैसे-

Form के Show Buttonपर Click करके निम्न प्रकार से प्रोग्राम को निर्देशित किया जाता है –

Iw-Input Word

Wf1- Word form1

Wf2- Word form2

Wf3- Word form3

 

Step1-iw=wf1

Step2-iw= iw.lengh-1

         Wf2=iw+ “ ? ”;

Step3-iw= iw.lengh-1

          Wf3=iw+ “  ? ”;

 


इस प्रकार प्रोग्राम को निर्देश दिये जाने के बाद ‘Run’ Commond देने पर वह प्रोग्राम कार्य करने लगता है। लड़का की तरह जितने भी शब्दों के रूप बनते हैं, उन शब्दों का इनपुट देने पर आउटपुट के रूप में उनके रूप प्राप्त हो जाएँगे।

प्रारूप-


डेटाबेस आधारित (corpus Based):-

डेटाबेस आधारित सोफ्टवेयरों में सबसे पहले डेटाबेस का निर्माण किया जाता है। फिर उस डेटाबेस को प्रोग्राम से जोड़ दिया जाता है, उसके बाद प्रोग्राम को निर्देशित किया जाता है। इसी के आधार पर प्रोग्राम कार्य करता है।

MS Access में जाकर Database का निर्माण किया जाता है। उसमें शब्दों के साथ विभिन्न सूचनाएँ दी जाती हैं। जैसे-


इस प्रकार Database निर्माण में सूचनाएँ संबंधी सॉफ्टवेयर/टूल की आवश्यकतानुसार दी जाती हैं। इस Database को प्रोग्राम/टूल से जोड़ा जाता है। उसके बाद शब्दों का इनपुट देने पर प्रोग्राम डेटाबेस से मैच करके उससे संबंधित निम्न सूचनाएँ प्रदर्शित करता है, जो डेटाबेस में दी गयी होती हैं।

जैसे:एक प्रारूप-


संदर्भ ग्रंथ : धनजी प्रसाद- कार्पस भाषाविज्ञान

                धनजी प्रसाद - सी. शार्प प्रोग्रामिंग एवं हिंदी के भाषिक टूल्स