ਸੇਮਲਟ ਮਾਹਰ ਜਾਕੂਰੀ ਅਤੇ ਰੀਜੈਕਸ ਦੀ ਵਰਤੋਂ ਨਾਲ ਜਾਵਾ ਸਕ੍ਰਿਪਟ ਦੇ ਨਾਲ ਵੈੱਬ ਸਕ੍ਰੈਪਿੰਗ ਲਈ ਪਗਾਂ ਨੂੰ ਪ੍ਰਭਾਸ਼ਿਤ ਕਰਦੇ ਹਨ

ਹਾਲਾਂਕਿ ਇੱਕ ਵੈਬਸਾਈਟ ਏਪੀਆਈ ਦੇ ਡੇਟਾ ਲਿਆਉਣ ਲਈ ਸਿਰਫ jQuery ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਸੌਖਾ ਹੈ, ਪਰ ਸਾਰੀਆਂ ਸਾਈਟਾਂ ਵਿੱਚ ਇੱਕ ਜਨਤਕ API ਨਹੀਂ ਹੁੰਦਾ ਜਿਸਦੀ ਤੁਸੀਂ ਆਪਣੀ ਜਾਣਕਾਰੀ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹੋ. ਇਸ ਕਾਰਨ ਕਰਕੇ, ਤੁਸੀਂ ਅਗਲਾ ਵਿਕਲਪ ਲੱਭਣਾ ਚਾਹੋਗੇ ਜੋ ਵੈਬ ਸਕ੍ਰੈਪਿੰਗ ਹੈ . ਇਹ jQuery ਅਤੇ Regex ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਜਾਵਾ ਸਕ੍ਰਿਪਟ ਦੇ ਨਾਲ ਕਲਾਇੰਟ ਸਾਈਡ ਵੈਬ ਸਕ੍ਰੈਪਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ. ਵੈਬ ਸਕ੍ਰੈਪਿੰਗ ਅਸਲ ਵਿੱਚ ਵੈਬਸਾਈਟ ਏਪੀਆਈ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਬੇਲੋੜੀ ਬਣਾ ਦਿੰਦੀ ਹੈ ਕਿਉਂਕਿ ਤੁਹਾਨੂੰ ਉਹ ਸਾਰਾ ਡਾਟਾ ਮਿਲਦਾ ਹੈ ਜੋ ਤੁਸੀਂ ਚਾਹੁੰਦੇ ਹੋ. ਏਪੀਆਈਜ਼ ਲਈ, ਤੁਹਾਨੂੰ ਲੌਗਇਨ ਕਰਨਾ ਪੈ ਸਕਦਾ ਹੈ ਜੋ ਤੁਹਾਡੇ ਲਈ ਵਾਪਸ ਲੱਭਣਾ ਸੌਖਾ ਬਣਾ ਸਕਦਾ ਹੈ.

JQuery .get ਬੇਨਤੀ ਦੀ ਵਰਤੋਂ ਕਰਦਿਆਂ, ਪੂਰੇ ਪੇਜ ਦੇ HTML ਨੂੰ ਫੜੋ. ਪੂਰਾ ਪੇਜ ਸੋਰਸ ਕੋਡ ਕੰਸੋਲ ਤੇ ਲੌਗ ਕੀਤਾ ਜਾਵੇਗਾ. ਪਹੁੰਚ ਤੋਂ ਇਨਕਾਰ ਕਰਨ ਦੇ ਇਸ ਪੜਾਅ 'ਤੇ ਤੁਹਾਨੂੰ ਕੋਈ ਗਲਤੀ ਹੋ ਸਕਦੀ ਹੈ, ਪਰ ਤੁਹਾਨੂੰ ਚਿੰਤਾ ਨਹੀਂ ਕਰਨੀ ਚਾਹੀਦੀ ਕਿਉਂਕਿ ਕੋਈ ਹੱਲ ਹੈ. ਕੋਡ ਪੇਜ ਨੂੰ ਉਸੇ ਤਰ੍ਹਾਂ ਬੇਨਤੀ ਕਰਦਾ ਹੈ ਜਿਵੇਂ ਬ੍ਰਾ browserਜ਼ਰ ਕਰਦਾ ਹੈ, ਪਰ ਪੇਜ ਡਿਸਪਲੇਅ ਦੀ ਬਜਾਏ, ਤੁਸੀਂ HTML ਕੋਡ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹੋ.

ਉਪਜ ਸਿੱਧੇ ਤੌਰ ਤੇ ਉਹ ਨਹੀਂ ਹੋ ਸਕਦਾ ਜੋ ਤੁਸੀਂ ਚਾਹੁੰਦੇ ਹੋ, ਪਰ ਜਾਣਕਾਰੀ ਉਸ ਕੋਡ ਵਿੱਚ ਹੈ ਜੋ ਤੁਸੀਂ ਫੜ ਲਈ ਹੈ. ਉਹ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਜੋ ਤੁਸੀਂ ਚਾਹੁੰਦੇ ਹੋ jQuery methodੰਗ ਦੀ ਵਰਤੋਂ .ਫਿੰਡ (). ਬਾਹਰੀ ਸਕ੍ਰਿਪਟਾਂ, ਫੋਂਟਾਂ ਅਤੇ ਸ਼ੈਲੀ ਸ਼ੀਟਾਂ ਵਿਚ ਪੂਰੇ ਪੰਨੇ ਨੂੰ ਲੋਡ ਕਰਨ ਲਈ, ਜਵਾਬ ਨੂੰ ਇਕ jQuery ਆਬਜੈਕਟ ਵਿਚ ਬਦਲੋ. ਹਾਲਾਂਕਿ, ਤੁਹਾਨੂੰ ਸਿਰਫ ਕੁਝ ਬਿੱਟਸ ਦੀ ਜ਼ਰੂਰਤ ਪੈ ਸਕਦੀ ਹੈ ਨਾ ਕਿ ਪੂਰੇ ਪੇਜ ਅਤੇ ਬਾਹਰੀ ਡੇਟਾ ਲਈ. ਟੈਕਸਟ ਵਿਚ ਸਕ੍ਰਿਪਟ ਦੇ ਪੈਟਰਨ ਲੱਭਣ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਖਤਮ ਕਰਨ ਲਈ ਰੇਜੈਕਸ ਦੀ ਵਰਤੋਂ ਕਰੋ. ਫਿਰ ਵੀ, ਤੁਸੀਂ ਉਸ ਡੇਟਾ ਨੂੰ ਚੁਣਨ ਲਈ ਰੇਜੈਕਸ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ ਜਿਸਦੀ ਤੁਹਾਨੂੰ ਦਿਲਚਸਪੀ ਹੈ.

ਰੇਂਜ ਹਰ ਤਰ੍ਹਾਂ ਦੇ ਪੈਟਰਨ ਨੂੰ ਸਟ੍ਰਿੰਗਜ਼ ਵਿਚ ਮਿਲਾਉਣ ਵਿਚ ਅਤੇ ਜਵਾਬ ਵਿਚਲੇ ਡੇਟਾ ਦੀ ਭਾਲ ਵਿਚ ਮਹੱਤਵਪੂਰਨ ਹੈ. ਉਪਰੋਕਤ ਤਿਆਰ ਕੀਤੇ ਰੇਜੈਕਸ ਕੋਡ ਦੀ ਵਰਤੋਂ ਨਾਲ, ਤੁਸੀਂ ਕਿਸੇ ਵੀ ਡੇਟਾ ਫਾਈਲ ਫਾਰਮੈਟ ਨੂੰ ਬਾਹਰ ਕੱ stri ਸਕਦੇ ਹੋ. ਇਹ ਬਹੁਤ ਸੌਖਾ ਹੋਵੇਗਾ ਜੇ ਤੁਹਾਨੂੰ ਲੋੜੀਂਦਾ ਡੇਟਾ ਸਾਧਾਰਨ ਟੈਕਸਟ ਵਿੱਚ ਹੈ.

ਚੁਣੌਤੀਆਂ ਜੋ ਤੁਸੀਂ ਸਾਹਮਣਾ ਕਰ ਸਕਦੇ ਹੋ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਕਿਵੇਂ ਨਿਪਟਿਆ ਜਾਵੇ

ਕਰਾਸ-ਓਰੀਜ਼ਨ ਸਰੋਤ ਸਾਂਝੇ ਕਰਨਾ (ਸੀਓਆਰਐਸ) ਕਲਾਇੰਟ-ਸਾਈਡ ਵੈੱਬ ਸਕ੍ਰੈਪਿੰਗ ਦੇ ਅੰਦਰ ਇਕ ਅਸਲ ਚੁਣੌਤੀ ਹੈ. ਵੈੱਬ ਸਕ੍ਰੈਪਿੰਗ ਪ੍ਰਤਿਬੰਧਿਤ ਹੈ ਕਿਉਂਕਿ ਇਹ ਕੁਝ ਮਾਮਲਿਆਂ ਵਿੱਚ ਗੈਰਕਾਨੂੰਨੀ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ. ਸੁਰੱਖਿਆ ਕਾਰਨਾਂ ਕਰਕੇ, ਸਕ੍ਰਿਪਟਾਂ ਦੇ ਅੰਦਰੋਂ ਕਰਾਸ-ਮੁੱ HT HTTP ਬੇਨਤੀਆਂ 'ਤੇ ਰੋਕ ਲਗਾਈ ਗਈ ਹੈ ਜਿਸਦੇ ਨਤੀਜੇ ਵਜੋਂ CORS ਗਲਤੀ ਆਉਂਦੀ ਹੈ. ਕਰਾਸ-ਡੋਮੇਨ ਸਾਧਨਾਂ ਦੀ ਵਰਤੋਂ ਨਾਲ ਜਿਵੇਂ ਕਿ ਸਾਰੇ ਮੂਲ, ਕਰਾਸ-ਓਰੀਜਨ, ਜੋ ਵੀ ਓਰੀਜਨ, ਕੋਈ ਵੀ ਮੂਲ ਅਤੇ ਹੋਰ, ਤੁਸੀਂ ਆਪਣੇ ਉਦੇਸ਼ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹੋ.

ਇਕ ਹੋਰ ਸਮੱਸਿਆ ਜਿਸ ਦਾ ਤੁਸੀਂ ਸਾਹਮਣਾ ਕਰ ਸਕਦੇ ਹੋ ਉਹ ਹੈ ਰੇਟ ਸੀਮਤ. ਭਾਵੇਂ ਕਿ ਬਹੁਤੀਆਂ ਜਨਤਕ ਵੈਬਸਾਈਟਾਂ ਕੋਲ ਸਵੈਚਾਲਤ ਪਹੁੰਚ ਦੇ ਵਿਰੁੱਧ ਬਚਾਅ ਦੇ ਤੌਰ ਤੇ ਕੈਪਚਾ ਤੋਂ ਇਲਾਵਾ ਹੋਰ ਕੁਝ ਨਹੀਂ ਹੁੰਦਾ, ਤੁਸੀਂ ਸ਼ਾਇਦ ਉਸ ਸਾਈਟ ਤੇ ਚਲੇ ਜਾਉ ਜਿਸਦੀ ਦਰ ਦੀਆਂ ਸੀਮਾਵਾਂ ਹੋਣ. ਇੱਥੇ, ਤੁਸੀਂ ਸੀਮਾ ਨੂੰ ਦੂਰ ਕਰਨ ਲਈ ਕਈ ਆਈ ਪੀ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ.

ਕੁਝ ਸਾਈਟਾਂ ਦਾ ਵੈਬ ਸਕ੍ਰੈਪਰਾਂ ਨੂੰ ਰੋਕਣ ਲਈ ਸਾੱਫਟਵੇਅਰ ਹੁੰਦੇ ਹਨ. ਉਹ ਕਿੰਨੇ ਮਜ਼ਬੂਤ ਹਨ ਤੇ ਨਿਰਭਰ ਕਰਦਿਆਂ, ਤੁਸੀਂ ਆਪਣੇ ਆਪ ਨੂੰ ਇੱਕ ਗੜਬੜ ਵਿੱਚ ਪਾ ਸਕਦੇ ਹੋ. ਮੁਸ਼ਕਲਾਂ ਵਿੱਚ ਪੈਣ ਤੋਂ ਬਚਣ ਲਈ ਤੁਹਾਨੂੰ ਕੁਝ ਜਾਣਕਾਰੀ ਦੀ ਭਾਲ ਕਰਨੀ ਪੈ ਸਕਦੀ ਹੈ.

ਸਾਈਟਾਂ ਲਈ ਵਿਦੇਸ਼ੀ ਡੋਮੇਨ ਤੋਂ ਕੁਝ ਸਰੋਤਾਂ ਦੀ ਆਗਿਆ ਹੈ ਜੋ CSS ਸਟਾਈਲ ਸ਼ੀਟਾਂ, ਚਿੱਤਰਾਂ ਅਤੇ ਸਕ੍ਰਿਪਟਾਂ, ਵੀਡੀਓ, ਆਡੀਓ, ਪਲੱਗਇਨ, ਫੋਂਟ, ਅਤੇ ਫਰੇਮਾਂ ਸਮੇਤ ਕਰਾਸ-ਓਰਿਅਰ ਸ਼ੇਅਰਿੰਗ ਦੀ ਆਗਿਆ ਦਿੰਦੀਆਂ ਹਨ.

ਤਿੰਨ ਕਦਮ ਤੁਹਾਨੂੰ ਕਿਸੇ ਵੀ ਵੈਬਸਾਈਟ ਤੋਂ ਡੇਟਾ ਨੂੰ ਸਕ੍ਰੈਪ ਕਰਨ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰ ਸਕਦੇ ਹਨ:

I. ਕਲਾਇੰਟ ਸਾਈਡ ਜਾਵਾ ਸਕ੍ਰਿਪਟ ਦੀ ਵਰਤੋਂ ਕਰੋ.

II. ਡੇਟਾ ਨੂੰ ਸਕ੍ਰੈਪ ਕਰਨ ਲਈ jQuery ਦੀ ਵਰਤੋਂ ਕਰੋ.

III. ਲੋੜੀਂਦੀ ਜਾਣਕਾਰੀ ਲਈ ਡਾਟਾ ਫਿਲਟਰ ਕਰਨ ਲਈ ਰੇਜੈਕਸ ਦੀ ਵਰਤੋਂ ਕਰੋ.