PDF टेक्स्ट एक्सट्रैक्टर क्या है?

PDF टेक्स्ट एक्सट्रैक्टर किसी भी PDF दस्तावेज़ से सभी पठनीय टेक्स्ट निकालता है। यह मूल संरचना बनाए रखता है और साफ, कॉपी करने योग्य टेक्स्ट देता है। रिपोर्ट, शोध पत्र, मैनुअल, इनवॉइस — चयन योग्य टेक्स्ट वाली किसी भी PDF के साथ काम करता है।

टूल pdf.js के सहारे हर पेज पर जाकर टेक्स्ट को टुकड़े-टुकड़े इकट्ठा करता है और स्पेस लगाकर जोड़ देता है। पेज के बीच खाली पंक्ति रखकर आउटपुट पढ़ने लायक रखा जाता है। नतीजा प्लेन टेक्स्ट है — नोट्स ऐप में चिपकाएँ, ट्रांसलेटर में डालें, grep से खोजें, या किसी भी टूल को दें जो PDF की बजाय टेक्स्ट पसंद करता है।

उपयोग कैसे करें

  1. वह PDF फ़ाइल अपलोड करें जिसमें से आप टेक्स्ट निकालना चाहते हैं
  2. टेक्स्ट एक्सट्रैक्शन पूरा होने तक प्रतीक्षा करें — बड़ी फ़ाइलों में कुछ सेकंड लग सकते हैं
  3. निकाले गए टेक्स्ट को क्लिपबोर्ड पर कॉपी करें या प्लेन टेक्स्ट फ़ाइल के रूप में डाउनलोड करें

कब उपयोग करें

  • रिसर्च पेपर PDF से उद्धरण निकालकर अपनी लेखनी में इस्तेमाल करना।
  • किसी पुरानी किताब या मैनुअल के स्कैन को सर्च और कॉपी होने लायक टेक्स्ट में बदलना।
  • इनवॉइस या रसीद के डेटा को निकालकर स्प्रेडशीट में पेस्ट करना।

परिणाम

एक रिसर्च पेपर PDF अपलोड करें और उसकी पूरी टेक्स्ट सामग्री निकालें — एब्स्ट्रैक्ट, मुख्य भाग और संदर्भ साफ कॉपी करने योग्य टेक्स्ट बन जाते हैं। 20-पेज का शोध पत्र आमतौर पर 2 सेकंड से कम में एक्सट्रैक्ट हो जाता है।

अक्सर पूछे जाने वाले प्रश्न

क्या टूल उन स्कैन PDF पर भी काम करता है जो असल में सिर्फ़ इमेज होती हैं?
तभी जब उन स्कैन पर OCR हो चुका हो। टूल PDF में मौजूद टेक्स्ट लेयर पढ़ता है। शुद्ध इमेज स्कैन में टेक्स्ट लेयर नहीं होती, इसलिए नतीजा खाली आएगा। पहले फ़ाइल को OCR टूल से गुज़ारें, फिर यहाँ वापस आएँ।
क्या आउटपुट में बोल्ड, इटैलिक, कॉलम और टेबल जैसा फॉर्मेट बना रहता है?
नहीं। आउटपुट सिर्फ़ प्लेन टेक्स्ट होता है। PDF का टेक्स्ट इंजन कैरेक्टर और पोज़ीशन बताता है, पर बोल्ड या टेबल स्ट्रक्चर को भरोसेमंद ढंग से वापस बनाना बहुत कठिन है। कॉलम आम तौर पर पढ़ने के क्रम में आते हैं; जटिल लेआउट के लिए हाथ से सफ़ाई करनी पड़ सकती है।
निकाले गए टेक्स्ट में अजीब स्पेस क्यों आते हैं या शब्द क्यों जुड़े हुए दिखते हैं?
PDF टेक्स्ट को लॉजिकल शब्द नहीं, बल्कि पोज़ीशन वाले ग्लिफ़ की तरह स्टोर करता है। कुछ जनरेटर हर ग्लिफ़ के बीच स्पेस डालते हैं, कुछ बिल्कुल नहीं। टूल टुकड़ों को स्पेस से जोड़ता है, इसलिए घनी PDF में अतिरिक्त स्पेस साफ़ करने के लिए एक बार खोज-बदल चलाना पड़ सकता है।
स्पीड कैसी है? क्या यह 200 पेज की रिपोर्ट संभाल लेगा?
हाँ। 20 पेज का पेपर एक सेकंड से बहुत कम में निकल जाता है। 200 पेज वाले डॉक्यूमेंट में कुछ सेकंड लगते हैं। रफ़्तार इस पर निर्भर करती है कि PDF कैसे बनी — Word या LaTeX से एक्सपोर्ट हुई फ़ाइलें भारी स्कैन + OCR + ढेर सारे एम्बेडेड फ़ॉन्ट वाली फ़ाइलों से तेज़ होती हैं।
एन्क्रिप्टेड या पासवर्ड-प्रोटेक्टेड PDF का क्या होगा?
अगर PDF खोलने के लिए पासवर्ड माँगती है, तो एक्सट्रैक्शन स्पष्ट एरर के साथ फेल हो जाता है। पासवर्ड पता हो तो पहले हमारे PDF अनलॉक टूल से पासवर्ड हटाएँ और फिर यहाँ वापस आएँ। सिर्फ़ मार्क की हुई पर असली लॉक न लगी PDF आम तौर पर ठीक चलती हैं।

संबंधित उपकरण