Google And Microsoft सिलिकॉन वैली में सबसे प्रमुख नाम मनु चोपड़ा की कार्या के साथ मिलकर AI उपकरणों को इकट्ठा करने के लिए काम कर रहे हैं जो भारत में गैर-अंग्रेजी बोलने वालों की बेहतर मदद करते हैं।
चावल के पेडों और मूंगफली के खेतों से घिरे बेंगलुरु से तीन घंटे दक्षिण-पश्चिम में एक छोटे से शहर आगरा में एक शांत सड़क पर अपने एक कमरे के घर में, प्रीति पी. एक सिलाई मशीन के पास एक स्टूल पर बैठी हैं। नियमित रूप से, वह घंटों कपड़ों की मरम्मत या सिलाई करती थी, अपने काम के लिए वह प्रति दिन औसतन $1 से भी कम लेती थी। इस दिन, हालाँकि, वह टेलीफोन पर एक एप्लिकेशन में अपनी स्थानीय कन्नड़ भाषा में एक वाक्य पढ़ रही है। वह क्षण भर के लिए रुकती है, फिर दूसरी बात पर विचार करती है।
प्रीति, जो एक अकेले नाम से जानी जाती है, जैसा कि इस इलाके में आम है, भारत की स्थानीय बोलियों में पाठ, आवाज और चित्र जानकारी जमा करने के लिए कार्या नामक एक स्टार्टअप द्वारा आगरा और आसपास के शहरों में भर्ती किए गए 70 मजदूरों में से एक है। वह भारत, केन्या और फिलीपींस जैसे देशों में काम करने वाली एक विशाल, छिपी हुई विश्वव्यापी श्रम शक्ति के लिए आवश्यक है – जो उन सूचनाओं को इकट्ठा करती है और नाम देती है जिन पर AI चैटबॉट और दूरस्थ सहायक महत्वपूर्ण प्रतिक्रियाएँ उत्पन्न करने के लिए निर्भर होते हैं। हालाँकि, किराए के लिए उपलब्ध कई अलग-अलग सूचना कर्मचारियों के विपरीत, प्रीति को उसके प्रयासों के लिए कुछ हद तक स्थानीय मानदंडों के अनुसार अच्छा मुआवजा मिलता है।
कार्या के साथ तीन दिनों तक काम करने के बाद, प्रीति ने 4,500 रुपये ($54) कमाए, जो कि 22 वर्षीय माध्यमिक विद्यालय के स्नातक द्वारा एक डिजाइनर के रूप में पूरे महीने में आम तौर पर अर्जित की जाने वाली राशि से कई गुना अधिक है। उसने कहा, नकदी पर्याप्त है, अपने घर की बिखरती हुई मिट्टी की दीवारों को आधा-अधूरा ठीक करने के लिए लिए गए ऋण के उस महीने के हिस्से की देखभाल करने के लिए, जिसे बड़ी मेहनत से सुंदर साड़ियों से सजाया गया है। “मुझे बस एक टेलीफोन और वेब चाहिए।”
Google And Microsoft
Karya की स्थापना ChatGPT के उदय से पहले 2021 में की गई थी, फिर भी जनरेटिव मानव निर्मित इंटेलिजेंस के प्रति वर्तमान वर्ष की दीवानगी ने तकनीकी संगठनों की सूचना के प्रति अटूट रुचि को बढ़ा दिया है। जैसा कि देश की तकनीकी उद्योग विनिमय संस्था नैसकॉम ने संकेत दिया है, केवल भारत में 2030 तक लगभग 1,00,000 सूचना टिप्पणी श्रमिक होने की उम्मीद है। कार्या अपने कर्मचारियों को – आम तौर पर महिलाओं को, और ज्यादातर ग्रामीण नेटवर्क में – कानून द्वारा अनुमत न्यूनतम वेतन से कई गुना अधिक, बेहतर गुणवत्ता वाली भारतीय-भाषा बनाने की प्रतिबद्धता के साथ किराए पर देने की पेशकश करके विभिन्न सूचना विक्रेताओं से खुद को अलग करता है। ऐसी जानकारी जिसे हासिल करने के लिए तकनीकी संगठन अधिक भुगतान करेंगे।
स्टार्टअप के पीछे स्टैनफोर्ड में प्रशिक्षित 27 वर्षीय पीसी इंजीनियर मनु चोपड़ा ने ब्लूमबर्ग को एक बैठक में बताया, “लगातार, विशाल तकनीकी संगठन अपनी मानव निर्मित बुद्धिमत्ता और एआई मॉडल के लिए जानकारी तैयार करने में अरबों डॉलर खर्च करते हैं।” “ऐसे काम के लिए दुर्भाग्यपूर्ण मुआवज़ा उद्योग की निराशा है।”
यह मानते हुए कि छोटी मज़दूरी उद्योग की निराशा है, इसे बनाने के संबंध में सिलिकॉन वैली पर कुछ दायित्व है। वास्तव में लंबे समय से, तकनीकी संगठनों ने विदेशों में काम पर रखने के लिए कम खर्चीले श्रमिकों को सूचना अंकन और सामग्री संतुलन जैसे उपक्रमों को फिर से नियुक्त किया है। हालाँकि, वर्तमान में, सिलिकॉन वैली के कुछ सबसे अचूक नाम अपने मानव निर्मित खुफिया वस्तुओं के लिए सबसे बड़ी कठिनाइयों में से एक को संबोधित करने के लिए कार्या जा रहे हैं: ऐसे उपकरण बनाने के लिए उत्कृष्ट जानकारी को ट्रैक करना जो अरबों संभावित गैर-अंग्रेजी भाषी ग्राहकों को अधिक आसानी से सेवा प्रदान कर सके। . ये संगठन सूचना व्यवसाय के वित्तीय मामलों और सूचना आपूर्तिकर्ताओं के साथ सिलिकॉन वैली के संबंधों में एक मजबूत बदलाव को संबोधित कर सकते हैं।
microsoft ने अपने सिम्युलेटेड इंटेलिजेंस उत्पादों के लिए स्थानीय संवाद जानकारी प्राप्त करने के लिए Karya का उपयोग किया है। बिल और मेलिंडा डोर्स एस्टाब्लिशमेंट कार्या के साथ काम कर रहा है ताकि विशाल भाषा मॉडल में फीड होने वाली जानकारी में अभिविन्यास की प्रवृत्ति को कम किया जा सके, जो मानव निर्मित खुफिया चैटबॉट्स का समर्थन करने वाला नवाचार है। इसके अलावा, लेटर सेट इंक. Google 85 भारतीय क्षेत्रों में संचार जानकारी एकत्र करने के लिए Karya और अन्य स्थानीय सहयोगियों पर भरोसा कर रहा है। Google का इरादा प्रत्येक स्थान पर बोली जाने वाली अधिकांश भाषा या लिंगो को शामिल करने और 125 भारतीय बोलियों के लिए एक जेनरेटर कंप्यूटर आधारित इंटेलिजेंस मॉडल बनाने का है।
कई AI सेवाओं को अंग्रेजी भाषा की वेब जानकारी, उदाहरण के लिए, लेख, किताबें और ऑनलाइन मनोरंजन पोस्ट के साथ असंतुलित रूप से विकसित किया गया है। इसके बाद, ये कंप्यूटर आधारित खुफिया मॉडल विभिन्न देशों में वेब ग्राहकों के लिए विभिन्न प्रकार की बोलियों को अपर्याप्त रूप से संबोधित करते हैं, जो अंग्रेजी सीखने की तुलना में AI वाले सेल फोन और एप्लिकेशन तक तेजी से पहुंच रहे हैं। लगभग एक अरब ऐसे संभावित ग्राहक अकेले भारत में रहते हैं, क्योंकि सार्वजनिक प्राधिकरण चिकित्सा देखभाल से लेकर प्रशिक्षण से लेकर मौद्रिक प्रशासन तक प्रत्येक सर्कल में AI उपकरणों के रोलआउट पर जोर दे रहा है।
अब पूरी दुनिया के लिए आईफोन बनेगा टाटा की फैक्ट्री में: भारतीय आईटी मंत्री ने की घोषणा >>
भारत में Google एक्सप्लोरेशन के प्रमुख मनीष गुप्ता ने संगठन के कंप्यूटर आधारित खुफिया चैटबॉट की ओर इशारा करते हुए कहा, “भारत प्राथमिक गैर-पश्चिमी देश है जहां हम ऐसा कर रहे हैं और हम नौ भारतीय बोलियों में पोएट की कोशिश कर रहे हैं।” “उत्तर में 1,000,000 व्यक्तियों द्वारा बोली जाने वाली 70 से अधिक भारतीय बोलियों में से प्रत्येक के पास शून्य उन्नत कोष था। मुद्दा बहुत अलग है।”
गुप्ता ने उन मुद्दों पर प्रकाश डाला जिन्हें AI कंपनियों को भारत के वेब ग्राहकों की सेवा के लिए संबोधित करने की आवश्यकता है: गैर-अंग्रेजी डेटासेट भयानक रूप से खराब गुणवत्ता वाले हैं; हिंदी और अन्य भारतीय बोलियों में बमुश्किल कोई बातचीत संबंधी जानकारी मौजूद है; और भारतीय बोलियों में पुस्तकों और पत्रों से डिजिटलीकृत सामग्री अत्यंत प्रतिबंधित है।
जब दक्षिण एशियाई बोलियों के लिए उपयोग किया जाता है, तो कुछ विशाल भाषा मॉडल शब्द बनाने और बुनियादी वाक्यविन्यास के साथ संघर्ष करने में सक्षम पाए गए हैं। इसी तरह की चिंताएं भी हैं कि ये नकली खुफिया प्रशासन विभिन्न समाजों पर अधिक तिरछे दृष्टिकोण को प्रतिबिंबित कर सकते हैं। स्टैनफोर्ड में सॉफ्टवेयर इंजीनियरिंग डिवीजन के शिक्षक मेहरान सहामी ने कहा, गैर-अंग्रेजी जानकारी सहित जानकारी तैयार करने का व्यापक चित्रण होना बुनियादी है, इसलिए अनुरूपित खुफिया ढांचे “हानिकारक सामान्यीकरण को बनाए नहीं रखते हैं, तिरस्कारपूर्ण प्रवचन उत्पन्न नहीं करते हैं, न ही झूठ पैदा करते हैं।” कॉलेज।
उन्हें पता चला कि microsoft, अपने सिम्युलेटेड इंटेलिजेंस ढांचे और अन्वेषण का ध्यान रखने के लिए, कम गुणवत्ता वाली होने के बावजूद, प्रवचन जानकारी इकट्ठा करने के लिए एक बड़ी राशि का भुगतान कर रहा था। उदाहरण के लिए, 2017 में, हालांकि मराठी में 1 मिलियन घंटे की डिजीटल मौखिक जानकारी उपलब्ध थी, जो कि मुंबई और इसके पश्चिमी भारत जिले में मौखिक रूप से व्यक्त की जाने वाली भाषा है, लेकिन खरीद के लिए केवल 165 घंटे ही उपलब्ध थे। तब से उनके स्टार्टअप ने microsoft के AI प्रशासन के लिए 10,000 घंटे की मराठी प्रवचन जानकारी एकत्र की है, जिसे पांच अलग-अलग स्थानों के लोगों ने पढ़ा है।
चोपड़ा ने कहा, “तकनीकी संगठनों को जानकारी, हाइलाइट वगैरह की जरूरत है।” “आप हैक करते हैं, उन्हें बातचीत में इसकी आवश्यकता होती है – यह सामान्य भाषा को संबोधित करता है।” microsoft एक्सप्लोरेशन इंडिया के एक वैज्ञानिक सैकत गुहा, जो सूचना संग्रह की नैतिकता पर ध्यान केंद्रित करते हैं, ने कहा कि उन्होंने दृश्य वाले लोगों की सहायता के लिए एक उद्यम के लिए कार्या की सामग्री को भी शामिल किया है। पद सुरक्षित करने में बाधाएँ। गुहा ने कहा, “जानकारी की प्रकृति स्पष्ट रूप से मेरे द्वारा उपयोग किए गए कुछ अन्य स्रोतों से बेहतर है।” “यदि आप श्रमिकों को उचित भुगतान करते हैं, तो वे अपने काम में अधिक संसाधन लगाते हैं, और परिणाम बेहतर जानकारी प्राप्त होती है।”
इस बीच, 30,000 से अधिक युवा, स्कूल-पढ़ी हुई महिलाएं “अभिविन्यास जानबूझकर” डेटासेट इकट्ठा करने में सहायता के लिए कार्या के साथ काम कर रही हैं – उदाहरण के लिए, विशेषज्ञ या प्रबंधक आम तौर पर वह नहीं है – विधेयक के लिए छह भारतीय भाषाओं में और मेलिंडा एंट्रीवेज़ प्रतिष्ठान। यह भारतीय भाषाओं में इस तरह का सबसे बड़ा प्रयास है और एलएलएम में अभिविन्यास संबंधी पूर्वाग्रहों को कम करने के लिए डेटासेट बनाने के लिए एक कोष के रूप में कार्य करेगा। कार्या भारत के साथ नहीं रुक रहा है। संगठन ने बातचीत में कहा कि वह अफ्रीका और दक्षिण अमेरिका में ऐसे संगठनों को सहायता के रूप में अपनी नींव पेश करेगा जो समान कार्य करेंगे।
Anurag Dwivedi Fantasy Cricket: कैसे कमाएं महीने के करोड़ो रुपए, जानिए पूरी जानकारी >>