ਸਕ੍ਰੈਪੀ, ਪਾਇਥਨ ਵਿੱਚ ਲਿਖਿਆ ਇੱਕ ਵੈਬ ਫਰੇਮਵਰਕ ਹੈ ਜਿਸਦੀ ਵਰਤੋਂ ਵੈਬਸਾਈਟ ਰਾਹੀਂ ਘੁੰਮਣ ਅਤੇ ਪ੍ਰਭਾਵੀ dataੰਗ ਨਾਲ ਡੇਟਾ ਕੱ extractਣ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ.
ਤੁਸੀਂ ਐਕਸਟਰੈਕਟ ਕੀਤੇ ਡੇਟਾ ਨੂੰ ਅੱਗੇ ਦੀ ਪ੍ਰਕਿਰਿਆ, ਡੇਟਾ ਮਾਈਨਿੰਗ, ਅਤੇ ਸਪਰੈੱਡਸ਼ੀਟਾਂ ਜਾਂ ਕਿਸੇ ਹੋਰ ਕਾਰੋਬਾਰੀ ਜ਼ਰੂਰਤ ਵਿੱਚ ਡੇਟਾ ਨੂੰ ਸਟੋਰ ਕਰਨ ਲਈ ਵਰਤ ਸਕਦੇ ਹੋ.
ਸਕ੍ਰੈਪੀ ਆਰਕੀਟੈਕਚਰ
ਸਕ੍ਰੈਪੀ ਦੇ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਪੰਜ ਮੁੱਖ ਭਾਗ ਸ਼ਾਮਲ ਹਨ:
- ਸਕ੍ਰੈਪੀ ਇੰਜਣ
- ਅਨੁਸੂਚੀ
- ਡਾਉਨਲੋਡਰ
- ਮੱਕੜੀਆਂ
- ਆਈਟਮ ਪਾਈਪਲਾਈਨ
ਸਕ੍ਰੈਪੀ ਇੰਜਣ
ਸਕ੍ਰੈਪੀ ਇੰਜਣ ਸਕ੍ਰੈਪੀ ਦਾ ਮੁੱਖ ਭਾਗ ਹੈ ਜਿਸਦਾ ਉਦੇਸ਼ ਹੋਰ ਸਾਰੇ ਹਿੱਸਿਆਂ ਦੇ ਵਿਚਕਾਰ ਡਾਟਾ ਪ੍ਰਵਾਹ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਨਾ ਹੈ. ਇੰਜਣ ਬੇਨਤੀ ਤਿਆਰ ਕਰਦਾ ਹੈ ਅਤੇ ਕਿਸੇ ਕਾਰਵਾਈ ਦੇ ਵਿਰੁੱਧ ਘਟਨਾਵਾਂ ਦਾ ਪ੍ਰਬੰਧਨ ਕਰਦਾ ਹੈ.
ਅਨੁਸੂਚੀ
ਸਮਾਂ -ਨਿਰਧਾਰਕ ਇੰਜਣ ਦੁਆਰਾ ਭੇਜੀਆਂ ਬੇਨਤੀਆਂ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਦੀ ਕਤਾਰ ਬਣਾਉਂਦਾ ਹੈ.
ਡਾਉਨਲੋਡਰ
ਡਾਉਨਲੋਡਰ ਦਾ ਉਦੇਸ਼ ਸਾਰੇ ਵੈਬ ਪੇਜਾਂ ਨੂੰ ਲਿਆਉਣਾ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਇੰਜਨ ਤੇ ਭੇਜਣਾ ਹੈ. ਇੰਜਣ ਫਿਰ ਮੱਕੜੀ ਨੂੰ ਵੈਬ ਪੇਜ ਭੇਜਦਾ ਹੈ.
ਮੱਕੜੀਆਂ
ਮੱਕੜੀ ਉਹ ਕੋਡ ਹੁੰਦੇ ਹਨ ਜੋ ਤੁਸੀਂ ਵੈਬਸਾਈਟਾਂ ਨੂੰ ਪਾਰਸ ਕਰਨ ਅਤੇ ਡਾਟਾ ਐਕਸਟਰੈਕਟ ਕਰਨ ਲਈ ਲਿਖਦੇ ਹੋ.
ਆਈਟਮ ਪਾਈਪਲਾਈਨ
ਮੱਕੜੀਆਂ ਦੁਆਰਾ ਉਨ੍ਹਾਂ ਨੂੰ ਕੱ extractਣ ਤੋਂ ਬਾਅਦ ਆਈਟਮ ਪਾਈਪਲਾਈਨ ਚੀਜ਼ਾਂ ਦੇ ਨਾਲ ਨਾਲ ਪ੍ਰਕਿਰਿਆ ਕਰਦੀ ਹੈ.
ਕੋਣੀ ਰੂਟਿੰਗ ਇੰਟਰਵਿਊ ਸਵਾਲ
ਸਕ੍ਰੈਪੀ ਸਥਾਪਤ ਕਰ ਰਿਹਾ ਹੈ
ਤੁਸੀਂ ਪਾਇਥਨ ਪੈਕੇਜ ਮੈਨੇਜਰ (ਪਾਈਪ) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਕ੍ਰੈਪੀ ਨੂੰ ਇਸਦੇ ਨਿਰਭਰਤਾਵਾਂ ਦੇ ਨਾਲ ਸਥਾਪਤ ਕਰ ਸਕਦੇ ਹੋ.
ਵਿੰਡੋਜ਼ ਵਿੱਚ ਸਕ੍ਰੈਪੀ ਸਥਾਪਤ ਕਰਨ ਲਈ ਹੇਠ ਲਿਖੀ ਕਮਾਂਡ ਚਲਾਓ:
pip install scrapy
ਹਾਲਾਂਕਿ, ਅਧਿਕਾਰਤ ਇੰਸਟਾਲੇਸ਼ਨ ਗਾਈਡ ਇੱਕ ਵਰਚੁਅਲ ਵਾਤਾਵਰਣ ਵਿੱਚ ਸਕ੍ਰੈਪੀ ਸਥਾਪਤ ਕਰਨ ਦੀ ਸਿਫਾਰਸ਼ ਕਰਦਾ ਹੈ ਕਿਉਂਕਿ ਸਕ੍ਰੈਪੀ ਨਿਰਭਰਤਾ ਹੋਰ ਪਾਈਥਨ ਸਿਸਟਮ ਪੈਕੇਜਾਂ ਨਾਲ ਟਕਰਾ ਸਕਦੀ ਹੈ ਜੋ ਹੋਰ ਸਕ੍ਰਿਪਟਾਂ ਅਤੇ ਸਾਧਨਾਂ ਨੂੰ ਪ੍ਰਭਾਵਤ ਕਰੇਗੀ.
ਇਸ ਲਈ, ਅਸੀਂ ਇੱਕ ਵਿਆਪਕ ਵਿਕਾਸ ਵਾਤਾਵਰਣ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਇੱਕ ਵਰਚੁਅਲ ਵਾਤਾਵਰਣ ਬਣਾਵਾਂਗੇ.
ਇਸ ਟਿਯੂਟੋਰਿਅਲ ਵਿੱਚ, ਅਸੀਂ ਪਹਿਲਾਂ ਇੱਕ ਵਰਚੁਅਲ ਵਾਤਾਵਰਣ ਸਥਾਪਤ ਕਰਾਂਗੇ ਅਤੇ ਫਿਰ ਸਕ੍ਰੈਪੀ ਦੀ ਸਥਾਪਨਾ ਨੂੰ ਜਾਰੀ ਰੱਖਾਂਗੇ.
- ਸਕ੍ਰੈਪੀ ਇੰਜਣ
- ਅਨੁਸੂਚੀ
- ਡਾਉਨਲੋਡਰ
- ਮੱਕੜੀਆਂ
- ਆਈਟਮ ਪਾਈਪਲਾਈਨ
pip install virtualenv
- ਸਕ੍ਰੈਪੀ ਇੰਜਣ
- ਅਨੁਸੂਚੀ
- ਡਾਉਨਲੋਡਰ
- ਮੱਕੜੀਆਂ
- ਆਈਟਮ ਪਾਈਪਲਾਈਨ
pip install virtualenvwrapper-win
3. ਸਕ੍ਰਿਪਟਾਂ ਫੋਲਡਰ ਦੇ ਅੰਦਰ ਮਾਰਗ ਸੈਟ ਕਰੋ, ਤਾਂ ਜੋ ਤੁਸੀਂ ਵਿਸ਼ਵ ਪੱਧਰ ਤੇ ਪਾਈਥਨ ਕਮਾਂਡਾਂ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕੋ:
set PATH=%PATH%;C:Usershpappdatalocalprogramspythonpython37-32scripts
4. ਇੱਕ ਵਰਚੁਅਲ ਵਾਤਾਵਰਣ ਬਣਾਉ:
mkvirtualenv ScrapyTut
ਜਿੱਥੇ ਸਕ੍ਰੈਪੀਟਟ ਸਾਡੇ ਵਾਤਾਵਰਣ ਦਾ ਨਾਮ ਹੈ:
5. ਆਪਣੇ ਪ੍ਰੋਜੈਕਟ ਫੋਲਡਰ ਨੂੰ ਬਣਾਉ ਅਤੇ ਇਸਨੂੰ ਵਰਚੁਅਲ ਵਾਤਾਵਰਣ ਨਾਲ ਜੋੜੋ:
6. ਮੌਜੂਦਾ ਵਰਕਿੰਗ ਡਾਇਰੈਕਟਰੀ ਦੇ ਨਾਲ ਵਰਚੁਅਲ ਵਾਤਾਵਰਣ ਨੂੰ ਜੋੜੋ:
setprojectdir .
7. ਜੇ ਤੁਸੀਂ ਵਰਚੁਅਲ ਵਾਤਾਵਰਨ ਮੋਡ ਨੂੰ ਬੰਦ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ ਤਾਂ ਇਸਦੀ ਵਰਤੋਂ ਕਰੋ ਅਕਿਰਿਆਸ਼ੀਲ ਕਰੋ ਹੇਠਾਂ ਦਿੱਤੇ ਅਨੁਸਾਰ:
deactivate
8. ਜੇ ਤੁਸੀਂ ਪ੍ਰੋਜੈਕਟ ਤੇ ਦੁਬਾਰਾ ਕੰਮ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ ਤਾਂ ਕੰਮ ਕਰਨ ਵਾਲਾ ਆਪਣੇ ਪ੍ਰੋਜੈਕਟ ਦੇ ਨਾਮ ਦੇ ਨਾਲ ਕਮਾਂਡ:
workon ScrapyTut
ਹੁਣ ਸਾਡੇ ਕੋਲ ਸਾਡਾ ਵਰਚੁਅਲ ਵਾਤਾਵਰਣ ਹੈ, ਅਸੀਂ ਸਕ੍ਰੈਪੀ ਦੀ ਸਥਾਪਨਾ ਨੂੰ ਜਾਰੀ ਰੱਖ ਸਕਦੇ ਹਾਂ.
- ਸਕ੍ਰੈਪੀ ਇੰਜਣ
- ਅਨੁਸੂਚੀ
- ਡਾਉਨਲੋਡਰ
- ਮੱਕੜੀਆਂ
- ਆਈਟਮ ਪਾਈਪਲਾਈਨ
pip install& scrapy
ਨੋਟ ਕਰੋ ਕਿ ਟਵਿਸਟਡ ਨੂੰ ਸਥਾਪਤ ਕਰਦੇ ਸਮੇਂ, ਤੁਹਾਨੂੰ ਇੱਕ ਗਲਤੀ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪੈ ਸਕਦਾ ਹੈ:
Microsoft visual c++ 14.0 is& required
ਇਸ ਗਲਤੀ ਨੂੰ ਠੀਕ ਕਰਨ ਲਈ, ਤੁਹਾਨੂੰ ਮਾਈਕ੍ਰੋਸਾੱਫਟ ਬਿਲਡ ਟੂਲਸ ਤੋਂ ਹੇਠ ਲਿਖਿਆਂ ਨੂੰ ਸਥਾਪਤ ਕਰਨਾ ਪਏਗਾ:
ਇਸ ਇੰਸਟੌਲੇਸ਼ਨ ਦੇ ਬਾਅਦ, ਜੇ ਤੁਹਾਨੂੰ ਹੇਠਾਂ ਦਿੱਤੀ ਵਰਗੀ ਕੋਈ ਹੋਰ ਗਲਤੀ ਮਿਲਦੀ ਹੈ:
error: command 'C:\Program Files (x86)\Microsoft Visual Studio 14.0\VC\BIN\link.exe' failed with exit status 1158
ਬਸ ਪਹੀਏ ਨੂੰ ਡਾਉਨਲੋਡ ਕਰੋ ਮਰੋੜਿਆ ਜੋ ਤੁਹਾਡੇ ਪਾਇਥਨ ਦੇ ਸੰਸਕਰਣ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ. ਇਸ ਪਹੀਏ ਨੂੰ ਆਪਣੀ ਮੌਜੂਦਾ ਕਾਰਜਕਾਰੀ ਡਾਇਰੈਕਟਰੀ ਵਿੱਚ ਇਸ ਤਰ੍ਹਾਂ ਪੇਸਟ ਕਰੋ:
ਹੁਣ ਹੇਠ ਲਿਖੀ ਕਮਾਂਡ ਚਲਾਉ:
pip install Twisted-18.9.0-cp37-cp37m-win32.whl
ਹੁਣ, ਸਾਡਾ ਪਹਿਲਾ ਕ੍ਰਾਲਰ ਬਣਾਉਣ ਲਈ ਸਭ ਕੁਝ ਤਿਆਰ ਹੈ, ਇਸ ਲਈ ਆਓ ਇਸ ਨੂੰ ਕਰੀਏ.
ਇੱਕ ਸਕ੍ਰੈਪੀ ਪ੍ਰੋਜੈਕਟ ਬਣਾਉ
ਸਕ੍ਰੈਪੀ ਕੋਡ ਲਿਖਣ ਤੋਂ ਪਹਿਲਾਂ, ਤੁਹਾਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਸਟਾਰਟਪ੍ਰੋਜੈਕਟ ਕਮਾਂਡ ਦੀ ਵਰਤੋਂ ਕਰਦਿਆਂ ਸਕ੍ਰੈਪੀ ਪ੍ਰੋਜੈਕਟ ਬਣਾਉਣਾ ਪਏਗਾ:
scrapy startproject myFirstScrapy
ਇਹ ਹੇਠਾਂ ਦਿੱਤੀ ਸਮਗਰੀ ਦੇ ਨਾਲ ਪ੍ਰੋਜੈਕਟ ਡਾਇਰੈਕਟਰੀ ਤਿਆਰ ਕਰੇਗਾ:
ਮੱਕੜੀ ਦੇ ਫੋਲਡਰ ਵਿੱਚ ਮੱਕੜੀਆਂ ਸ਼ਾਮਲ ਹੁੰਦੀਆਂ ਹਨ.
ਇੱਥੇ scrapy.cfg ਫਾਈਲ ਸੰਰਚਨਾ ਫਾਈਲ ਹੈ. MyFirstScrapy ਫੋਲਡਰ ਦੇ ਅੰਦਰ ਸਾਡੇ ਕੋਲ ਹੇਠ ਲਿਖੀਆਂ ਫਾਈਲਾਂ ਹੋਣਗੀਆਂ:
ਇੱਕ ਮੱਕੜੀ ਬਣਾਉ
ਪ੍ਰੋਜੈਕਟ ਬਣਾਉਣ ਤੋਂ ਬਾਅਦ, ਪ੍ਰੋਜੈਕਟ ਡਾਇਰੈਕਟਰੀ ਤੇ ਜਾਓ ਅਤੇ ਆਪਣੀ ਮੱਕੜੀ ਨੂੰ ਵੈਬਸਾਈਟ ਯੂਆਰਐਲ ਦੇ ਨਾਲ ਤਿਆਰ ਕਰੋ ਜਿਸ ਨੂੰ ਤੁਸੀਂ ਹੇਠਾਂ ਦਿੱਤੀ ਕਮਾਂਡ ਚਲਾ ਕੇ ਕ੍ਰੌਲ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ:
scrapy genspider jobs www.python.org
ਨਤੀਜਾ ਹੇਠ ਲਿਖੇ ਵਰਗਾ ਹੋਵੇਗਾ:
ਸਾਡਾ ਜੌਬਸ ਸਪਾਈਡਰ ਫੋਲਡਰ ਇਸ ਤਰ੍ਹਾਂ ਹੋਵੇਗਾ:
ਸਪਾਈਡਰ ਫੋਲਡਰ ਵਿੱਚ, ਸਾਡੇ ਕੋਲ ਇੱਕੋ ਪ੍ਰੋਜੈਕਟ ਦੇ ਅੰਦਰ ਕਈ ਮੱਕੜੀਆਂ ਹੋ ਸਕਦੀਆਂ ਹਨ.
ਹੁਣ ਆਓ ਸਾਡੀ ਨਵੀਂ ਬਣਾਈ ਮੱਕੜੀ ਦੀ ਸਮਗਰੀ ਨੂੰ ਵੇਖੀਏ. ਖੋਲ੍ਹੋ jobs.py ਫਾਈਲ ਜਿਸ ਵਿੱਚ ਹੇਠਾਂ ਦਿੱਤਾ ਕੋਡ ਹੈ:
import scrapy class JobsSpider(scrapy.Spider): name = 'jobs' allowed_domains = ['www.python.org'] start_urls = ['http://www.python.org/'] def parse(self, response): pass
ਇੱਥੇ ਸਹਾਇਕ ਉਪਕਰਣ ਸਕ੍ਰੈਪੀ ਦਾ ਉਪ -ਵਰਗ ਹੈ. 'ਨਾਮ' ਵੇਰੀਏਬਲ ਸਾਡੀ ਮੱਕੜੀ ਦਾ ਨਾਮ ਹੈ ਜੋ ਮੱਕੜੀ ਬਣਾਉਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਨਿਰਧਾਰਤ ਕੀਤਾ ਗਿਆ ਸੀ. ਨਾਂ ਦੀ ਵਰਤੋਂ ਮੱਕੜੀ ਨੂੰ ਚਲਾਉਣ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ. 'ਆਗਿਆ_ਡੋਮੇਨ' ਇਸ ਮੱਕੜੀ ਦੁਆਰਾ ਪਹੁੰਚਯੋਗ ਡੋਮੇਨ ਹੈ.
Start_urls ਉਹ URL ਹੈ ਜਿੱਥੋਂ ਵੈਬ ਕ੍ਰੌਲਿੰਗ ਸ਼ੁਰੂ ਕੀਤੀ ਜਾਏਗੀ ਜਾਂ ਤੁਸੀਂ ਕਹਿ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਸ਼ੁਰੂਆਤੀ URL ਹੈ ਜਿੱਥੇ ਵੈਬ ਕ੍ਰੌਲਿੰਗ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ. ਫਿਰ ਸਾਡੇ ਕੋਲ ਪਾਰਸ ਵਿਧੀ ਹੈ ਜੋ ਪੰਨੇ ਦੀ ਸਮਗਰੀ ਦੁਆਰਾ ਪਾਰਸ ਕਰਦੀ ਹੈ.
ਸਾਡੇ ਯੂਆਰਐਲ ਦੇ ਸਹਾਇਕ ਉਪਕਰਣ ਪੰਨੇ ਨੂੰ ਕ੍ਰੌਲ ਕਰਨ ਲਈ, ਸਾਨੂੰ ਹੇਠ ਲਿਖੇ ਅਨੁਸਾਰ start_urls ਸੰਪਤੀ ਵਿੱਚ ਇੱਕ ਹੋਰ ਲਿੰਕ ਜੋੜਨ ਦੀ ਲੋੜ ਹੈ:
start_urls = ['http://www.python.org/', 'https://www.python.org/jobs/']
ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਇੱਕ ਤੋਂ ਵੱਧ ਪੰਨਿਆਂ ਨੂੰ ਘੁੰਮਣਾ ਚਾਹੁੰਦੇ ਹਾਂ, ਇਸ ਲਈ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ ਕਿ ਮੱਕੜੀ ਨੂੰ ਕ੍ਰਾਲਸਪਾਈਡਰ ਕਲਾਸ ਦੀ ਬਜਾਏ scrapy.spider ਕਲਾਸ ਦੀ ਉਪ -ਸ਼੍ਰੇਣੀ. ਇਸਦੇ ਲਈ, ਤੁਹਾਨੂੰ ਹੇਠਾਂ ਦਿੱਤੇ ਮੋਡੀuleਲ ਨੂੰ ਆਯਾਤ ਕਰਨਾ ਪਏਗਾ:
from scrapy.spiders import CrawlSpider
ਸਾਡੀ ਕਲਾਸ ਹੇਠ ਲਿਖੇ ਵਰਗੀ ਦਿਖਾਈ ਦੇਵੇਗੀ:
class JobsSpider(CrawlSpider): …
ਅਗਲਾ ਕਦਮ ਹੈ ਅਰੰਭ ਕਰਨਾ ਨਿਯਮ ਵੇਰੀਏਬਲ. ਨਿਯਮ ਵੇਰੀਏਬਲ ਨੇਵੀਗੇਸ਼ਨ ਨਿਯਮਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਤ ਕਰਦੇ ਹਨ ਜੋ ਸਾਈਟ ਨੂੰ ਘੁੰਮਦੇ ਸਮੇਂ ਪਾਲਣਾ ਕੀਤੇ ਜਾਣਗੇ. ਨਿਯਮ ਆਬਜੈਕਟ ਦੀ ਵਰਤੋਂ ਕਰਨ ਲਈ, ਹੇਠ ਲਿਖੀ ਕਲਾਸ ਆਯਾਤ ਕਰੋ:
from scrapy.spiders import Rule
ਨਿਯਮ ਵੇਰੀਏਬਲ ਵਿੱਚ ਅੱਗੇ ਨਿਯਮ ਆਬਜੈਕਟ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ ਜਿਵੇਂ ਕਿ:
- ਸਕ੍ਰੈਪੀ ਇੰਜਣ
- ਅਨੁਸੂਚੀ
- ਡਾਉਨਲੋਡਰ
- ਮੱਕੜੀਆਂ
- ਆਈਟਮ ਪਾਈਪਲਾਈਨ
from scrapy.linkextractors import LinkExtractor
ਨਿਯਮ ਵੇਰੀਏਬਲ ਹੇਠ ਲਿਖੇ ਵਰਗਾ ਦਿਖਾਈ ਦੇਵੇਗਾ:
rules = ( Rule(LinkExtractor(allow=(), restrict_css=('.list-recent-jobs',)), callback='parse_item', follow=True),)
- ਸਕ੍ਰੈਪੀ ਇੰਜਣ
- ਅਨੁਸੂਚੀ
- ਡਾਉਨਲੋਡਰ
- ਮੱਕੜੀਆਂ
- ਆਈਟਮ ਪਾਈਪਲਾਈਨ
ਇਥੇ ਦੀ ਇਜਾਜ਼ਤ ਲਿੰਕ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ ਜਿਸ ਨੂੰ ਐਕਸਟਰੈਕਟ ਕੀਤਾ ਜਾਣਾ ਹੈ. ਪਰ ਸਾਡੀ ਉਦਾਹਰਣ ਵਿੱਚ, ਅਸੀਂ CSS ਕਲਾਸ ਦੁਆਰਾ ਸੀਮਤ ਕੀਤਾ ਹੈ. ਇਸ ਲਈ ਸਿਰਫ ਨਿਰਧਾਰਤ ਕਲਾਸ ਵਾਲੇ ਪੰਨੇ ਕੱedੇ ਜਾਣੇ ਚਾਹੀਦੇ ਹਨ.
ਕਾਲਬੈਕ ਪੈਰਾਮੀਟਰ ਉਸ methodੰਗ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਦਾ ਹੈ ਜਿਸਨੂੰ ਪੰਨੇ ਨੂੰ ਪਾਰਸ ਕਰਨ ਵੇਲੇ ਕਿਹਾ ਜਾਵੇਗਾ. ਦੇ . ਸੂਚੀ-ਹਾਲੀਆ-ਨੌਕਰੀਆਂ ਪੰਨੇ 'ਤੇ ਸੂਚੀਬੱਧ ਸਾਰੀਆਂ ਨੌਕਰੀਆਂ ਲਈ ਕਲਾਸ ਹੈ. ਤੁਸੀਂ ਉਸ ਆਈਟਮ 'ਤੇ ਸੱਜਾ ਕਲਿਕ ਕਰਕੇ ਕਿਸੇ ਆਈਟਮ ਦੀ ਕਲਾਸ ਦੀ ਜਾਂਚ ਕਰ ਸਕਦੇ ਹੋ ਅਤੇ ਵੈਬ ਪੇਜ' ਤੇ ਜਾਂਚ ਦੀ ਚੋਣ ਕਰ ਸਕਦੇ ਹੋ.
ਉਦਾਹਰਣ ਵਿੱਚ, ਅਸੀਂ ਮੱਕੜੀ ਨੂੰ ਕਿਹਾ parse_item ਦੀ ਬਜਾਏ methodੰਗ ਪਾਰਸ .
Parse_item ਵਿਧੀ ਦੀ ਸਮਗਰੀ ਇਸ ਪ੍ਰਕਾਰ ਹੈ:
def parse_item(self, response): print('Extracting…' + response.url)
ਇਹ ਐਕਸਟਰੈਕਟਿੰਗ ਨੂੰ ਛਾਪੇਗਾ ... ਇਸਦੇ ਨਾਲ ਯੂਆਰਐਲ ਨੂੰ ਇਸ ਵੇਲੇ ਐਕਸਟਰੈਕਟ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ. ਉਦਾਹਰਣ ਦੇ ਲਈ, ਇੱਕ ਲਿੰਕ https://www.python.org/jobs/3698/ ਕੱedਿਆ ਜਾਂਦਾ ਹੈ. ਇਸ ਲਈ ਆਉਟਪੁੱਟ ਸਕ੍ਰੀਨ ਤੇ, ਐਕਸਟਰੈਕਟ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ ... https://www.python.org/jobs/3698/ ਛਾਪਿਆ ਜਾਵੇਗਾ.
ਮੱਕੜੀ ਨੂੰ ਚਲਾਉਣ ਲਈ, ਆਪਣੇ ਪ੍ਰੋਜੈਕਟ ਫੋਲਡਰ ਤੇ ਜਾਓ ਅਤੇ ਹੇਠ ਲਿਖੀ ਕਮਾਂਡ ਟਾਈਪ ਕਰੋ:
scrapy crawl jobs
ਆਉਟਪੁੱਟ ਹੇਠ ਲਿਖੇ ਵਰਗੀ ਹੋਵੇਗੀ:
ਇਸ ਉਦਾਹਰਣ ਵਿੱਚ, ਅਸੀਂ follow = true ਸੈਟ ਕਰਦੇ ਹਾਂ ਜਿਸਦਾ ਅਰਥ ਹੈ ਕਿ ਕ੍ਰਾਲਰ ਪੰਨਿਆਂ ਨੂੰ ਕ੍ਰੌਲ ਕਰੇਗਾ ਜਦੋਂ ਤੱਕ ਨਿਯਮ ਗਲਤ ਨਹੀਂ ਹੋ ਜਾਂਦਾ. ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਜਦੋਂ ਨੌਕਰੀਆਂ ਦੀ ਸੂਚੀ ਖਤਮ ਹੁੰਦੀ ਹੈ.
ਜੇ ਤੁਸੀਂ ਸਿਰਫ ਪ੍ਰਿੰਟ ਸਟੇਟਮੈਂਟ ਪ੍ਰਾਪਤ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਹੇਠ ਲਿਖੀ ਕਮਾਂਡ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ:
scrapy crawl –nolog jobs
ਆਉਟਪੁੱਟ ਹੇਠ ਲਿਖੇ ਵਰਗੀ ਹੋਵੇਗੀ:
ਵਧਾਈਆਂ! ਤੁਸੀਂ ਆਪਣਾ ਪਹਿਲਾ ਵੈਬ ਕ੍ਰਾਲਰ ਬਣਾਇਆ ਹੈ.
ਸਕ੍ਰੈਪੀ ਬੁਨਿਆਦ
ਹੁਣ ਅਸੀਂ ਵੈਬ ਪੇਜਾਂ ਨੂੰ ਕ੍ਰੌਲ ਕਰ ਸਕਦੇ ਹਾਂ. ਆਓ ਥੋੜ੍ਹੀ ਦੇਰ ਲਈ ਕ੍ਰੌਲ ਕੀਤੀ ਸਮਗਰੀ ਨਾਲ ਖੇਡੀਏ.
ਚੋਣਕਾਰ
ਤੁਸੀਂ ਸੂਚੀਬੱਧ HTML ਤੋਂ ਡੇਟਾ ਦੇ ਕੁਝ ਹਿੱਸਿਆਂ ਦੀ ਚੋਣ ਕਰਨ ਲਈ ਚੋਣਕਾਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ. ਚੋਣਕਾਰ ਕ੍ਰਮਵਾਰ XPath ਅਤੇ CSS ਰਾਹੀਂ response.xpath () ਅਤੇ response.css () ਰਾਹੀਂ HTML ਤੋਂ ਡਾਟਾ ਚੁਣਦੇ ਹਨ. ਪਿਛਲੀ ਉਦਾਹਰਣ ਦੀ ਤਰ੍ਹਾਂ, ਅਸੀਂ ਡੇਟਾ ਦੀ ਚੋਣ ਕਰਨ ਲਈ ਸੀਐਸਐਸ ਕਲਾਸ ਦੀ ਵਰਤੋਂ ਕੀਤੀ.
ਹੇਠਾਂ ਦਿੱਤੀ ਉਦਾਹਰਣ ਤੇ ਵਿਚਾਰ ਕਰੋ ਜਿੱਥੇ ਅਸੀਂ HTML ਟੈਗਸ ਦੇ ਨਾਲ ਇੱਕ ਸਤਰ ਘੋਸ਼ਿਤ ਕੀਤੀ ਹੈ. ਚੋਣਕਾਰ ਕਲਾਸ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਅਸੀਂ ਵਿੱਚ ਡਾਟਾ ਕੱਿਆ h1 ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਟੈਗ ਕਰੋ ਚੋਣਕਾਰ. ਐਕਸਪੈਥ :
>>> from scrapy.selector import Selector >>> body = '' >>> Selector(text = body).xpath('//h1/text()').get() 'Heading 1'
ਇਕਾਈ
ਕੱrapyੇ ਗਏ ਡੇਟਾ ਨੂੰ ਵਾਪਸ ਕਰਨ ਲਈ ਸਕ੍ਰੈਪੀ ਪਾਈਥਨ ਡਿਕਟਸ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ.
ਡਾਟਾ ਕੱ extractਣ ਲਈ, ਸਕ੍ਰੈਪੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਆਈਟਮ ਕਲਾਸ ਜੋ ਆਈਟਮ ਆਬਜੈਕਟ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ. ਅਸੀਂ ਇਨ੍ਹਾਂ ਆਈਟਮ ਵਸਤੂਆਂ ਨੂੰ ਸਕ੍ਰੈਪਡ ਡੇਟਾ ਲਈ ਕੰਟੇਨਰਾਂ ਵਜੋਂ ਵਰਤ ਸਕਦੇ ਹਾਂ.
ਆਈਟਮਾਂ ਖੇਤਰਾਂ ਨੂੰ ਘੋਸ਼ਿਤ ਕਰਨ ਲਈ ਇੱਕ ਸਧਾਰਨ ਸੰਟੈਕਸ ਪ੍ਰਦਾਨ ਕਰਦੀਆਂ ਹਨ. ਸੰਟੈਕਸ ਹੇਠ ਲਿਖੇ ਵਰਗਾ ਹੈ:
>>> import scrapy >>> class Job(scrapy.Item): company = scrapy.Field()
ਫੀਲਡ ਆਬਜੈਕਟ ਹਰੇਕ ਖੇਤਰ ਲਈ ਮੈਟਾਡੇਟਾ ਨਿਰਧਾਰਤ ਕਰਦਾ ਹੈ.
ਜਦੋਂ ਤੁਸੀਂ ਸਕ੍ਰੈਪੀ ਪ੍ਰੋਜੈਕਟ ਬਣਾਇਆ ਜਾਂਦਾ ਹੈ, ਤੁਸੀਂ ਨੋਟ ਕਰ ਸਕਦੇ ਹੋ, ਇੱਕ items.py ਫਾਈਲ ਸਾਡੀ ਪ੍ਰੋਜੈਕਟ ਡਾਇਰੈਕਟਰੀ ਵਿੱਚ ਵੀ ਬਣਾਈ ਗਈ ਹੈ. ਅਸੀਂ ਆਪਣੀਆਂ ਚੀਜ਼ਾਂ ਨੂੰ ਹੇਠ ਲਿਖੇ ਅਨੁਸਾਰ ਜੋੜਨ ਲਈ ਇਸ ਫਾਈਲ ਨੂੰ ਸੋਧ ਸਕਦੇ ਹਾਂ:
import scrapy class MyfirstscrapyItem(scrapy.Item): # define the fields for your item here like: location = scrapy.Field()
ਇੱਥੇ ਅਸੀਂ ਇੱਕ ਆਈਟਮ ਸ਼ਾਮਲ ਕੀਤੀ ਹੈ. ਤੁਸੀਂ ਇਸ ਕਲਾਸ ਨੂੰ ਆਪਣੀ ਮੱਕੜੀ ਫਾਈਲ ਤੋਂ ਹੇਠ ਲਿਖੀਆਂ ਚੀਜ਼ਾਂ ਨੂੰ ਅਰੰਭ ਕਰਨ ਲਈ ਕਾਲ ਕਰ ਸਕਦੇ ਹੋ:
def parse_item(self, response): item_links = response.css('.text > .listing-company > .listing-location > a::text'').extract() for x in item_links: yield scrapy.Request(x, callback=self.MyfirstscrapyItem)
ਉਪਰੋਕਤ ਕੋਡ ਵਿੱਚ, ਅਸੀਂ ਡੇਟਾ ਨੂੰ ਐਕਸਟਰੈਕਟ ਕਰਨ ਲਈ css ਵਿਧੀ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਹੈ.
ਸਾਡੇ ਵੈਬ ਪੇਜ ਵਿੱਚ, ਸਾਡੇ ਕੋਲ ਕਲਾਸ ਦੇ ਨਾਲ ਇੱਕ div ਹੈ ਪਾਠ , ਇਸ div ਦੇ ਅੰਦਰ, ਸਾਡੇ ਕੋਲ ਕਲਾਸ ਦੇ ਨਾਲ ਇੱਕ ਸਿਰਲੇਖ ਹੈ ਸੂਚੀਕਰਨ ਕੰਪਨੀ , ਇਸ ਸਿਰਲੇਖ ਦੇ ਅੰਦਰ, ਸਾਡੇ ਕੋਲ ਕਲਾਸ ਦੇ ਨਾਲ ਸਪੈਨ ਟੈਗ ਹੈ ਸੂਚੀ-ਸਥਾਨ , ਅਤੇ ਅੰਤ ਵਿੱਚ, ਸਾਡੇ ਕੋਲ ਇੱਕ ਟੈਗ ਹੈ ਨੂੰ ਜਿਸ ਵਿੱਚ ਕੁਝ ਪਾਠ ਸ਼ਾਮਲ ਹਨ. ਇਹ ਪਾਠ ਐਕਸਟਰੈਕਟ () ਵਿਧੀ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੱਿਆ ਗਿਆ ਹੈ.
ਅੰਤ ਵਿੱਚ, ਅਸੀਂ ਐਕਸਟਰੈਕਟ ਕੀਤੀਆਂ ਸਾਰੀਆਂ ਆਈਟਮਾਂ ਨੂੰ ਲੂਪ ਕਰਾਂਗੇ ਅਤੇ ਆਈਟਮ ਕਲਾਸ ਨੂੰ ਕਾਲ ਕਰਾਂਗੇ.
ਕ੍ਰਾਲਰ ਵਿੱਚ ਇਹ ਸਭ ਕਰਨ ਦੀ ਬਜਾਏ, ਅਸੀਂ ਸਕ੍ਰੈਪੀ ਸ਼ੈੱਲ ਵਿੱਚ ਕੰਮ ਕਰਦੇ ਸਮੇਂ ਸਿਰਫ ਇੱਕ ਬਿਆਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਪਣੇ ਕ੍ਰਾਲਰ ਦੀ ਜਾਂਚ ਵੀ ਕਰ ਸਕਦੇ ਹਾਂ. ਅਸੀਂ ਬਾਅਦ ਦੇ ਭਾਗ ਵਿੱਚ ਸਕ੍ਰੈਪੀ ਸ਼ੈੱਲ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਾਂਗੇ.
ਆਈਟਮ ਲੋਡਰ
ਆਈਟਮ ਆਬਜੈਕਟ ਦੁਆਰਾ ਕੱਟੇ ਗਏ ਡੇਟਾ ਜਾਂ ਆਈਟਮਾਂ ਨੂੰ ਆਈਟਮ ਲੋਡਰ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਲੋਡ ਕੀਤਾ ਜਾਂ ਭਰਿਆ ਜਾਂਦਾ ਹੈ. ਪਾਰਸਿੰਗ ਨਿਯਮਾਂ ਨੂੰ ਵਧਾਉਣ ਲਈ ਤੁਸੀਂ ਆਈਟਮ ਲੋਡਰ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ.
ਵਸਤੂਆਂ ਨੂੰ ਐਕਸਟਰੈਕਟ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਅਸੀਂ ਚੋਣਕਾਰਾਂ ਦੀ ਸਹਾਇਤਾ ਨਾਲ ਆਈਟਮ ਲੋਡਰ ਵਿੱਚ ਆਈਟਮਾਂ ਨੂੰ ਭਰ ਸਕਦੇ ਹਾਂ.
ਆਈਟਮ ਲੋਡਰ ਲਈ ਸੰਟੈਕਸ ਇਸ ਪ੍ਰਕਾਰ ਹੈ:
from scrapy.loader import ItemLoader from jobs.items import Job def parse(self, response): l = ItemLoader(item=Job(), response=response) l.add_css(‘name’, ‘//li[@class = ‘listing-company’]’) l.load_item()
ਸਕ੍ਰੈਪੀ ਸ਼ੈੱਲ
ਸਕ੍ਰੈਪੀ ਸ਼ੈੱਲ ਇੱਕ ਕਮਾਂਡ ਲਾਈਨ ਟੂਲ ਹੈ ਜੋ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਬਿਨਾਂ ਕ੍ਰਾਲਰ ਦੇ ਜਾਏ ਪਾਰਸਰ ਦੀ ਜਾਂਚ ਕਰਨ ਦਿੰਦਾ ਹੈ. ਸਕ੍ਰੈਪੀ ਸ਼ੈੱਲ ਦੇ ਨਾਲ, ਤੁਸੀਂ ਆਪਣੇ ਕੋਡ ਨੂੰ ਅਸਾਨੀ ਨਾਲ ਡੀਬੱਗ ਕਰ ਸਕਦੇ ਹੋ. ਸਕ੍ਰੈਪੀ ਸ਼ੈੱਲ ਦਾ ਮੁੱਖ ਉਦੇਸ਼ ਡਾਟਾ ਐਕਸਟਰੈਕਸ਼ਨ ਕੋਡ ਦੀ ਜਾਂਚ ਕਰਨਾ ਹੈ.
ਅਸੀਂ ਕਿਸੇ ਵੈਬਸਾਈਟ ਤੇ ਕ੍ਰਾਲ ਓਪਰੇਸ਼ਨ ਕਰਦੇ ਸਮੇਂ CSS ਅਤੇ XPath ਸਮੀਕਰਨ ਦੁਆਰਾ ਕੱੇ ਗਏ ਡੇਟਾ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਸਕ੍ਰੈਪੀ ਸ਼ੈੱਲ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ.
ਤੁਸੀਂ ਸ਼ੈੱਲ ਕਮਾਂਡ ਦੀ ਵਰਤੋਂ ਕਰਦਿਆਂ ਮੌਜੂਦਾ ਪ੍ਰੋਜੈਕਟ ਤੋਂ ਸਕ੍ਰੈਪੀ ਸ਼ੈੱਲ ਨੂੰ ਕਿਰਿਆਸ਼ੀਲ ਕਰ ਸਕਦੇ ਹੋ:
scrapy shell
ਜੇ ਤੁਸੀਂ ਕਿਸੇ ਵੈਬ ਪੇਜ ਨੂੰ ਪਾਰਸ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਪੇਜ ਦੇ ਲਿੰਕ ਦੇ ਨਾਲ ਸ਼ੈੱਲ ਕਮਾਂਡ ਦੀ ਵਰਤੋਂ ਕਰੋਗੇ:
scrapy shell https://www.python.org/jobs/3659/
ਨੌਕਰੀ ਦੀ ਸਥਿਤੀ ਨੂੰ ਐਕਸਟਰੈਕਟ ਕਰਨ ਲਈ, ਸ਼ੈੱਲ ਵਿੱਚ ਹੇਠ ਲਿਖੀ ਕਮਾਂਡ ਚਲਾਉ:
response.css('.text > .listing-company > .listing-location > a::text').extract()
ਨਤੀਜਾ ਇਸ ਤਰ੍ਹਾਂ ਹੋਵੇਗਾ:
ਇਸੇ ਤਰ੍ਹਾਂ, ਤੁਸੀਂ ਵੈਬਸਾਈਟ ਤੋਂ ਕੋਈ ਵੀ ਡੇਟਾ ਐਕਸਟਰੈਕਟ ਕਰ ਸਕਦੇ ਹੋ.
ਮੌਜੂਦਾ ਕਾਰਜਸ਼ੀਲ URL ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ, ਤੁਸੀਂ ਹੇਠਾਂ ਦਿੱਤੀ ਕਮਾਂਡ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ:
response.url
ਇਸ ਤਰ੍ਹਾਂ ਤੁਸੀਂ ਸਕ੍ਰੈਪੀ ਵਿੱਚ ਸਾਰਾ ਡੇਟਾ ਐਕਸਟਰੈਕਟ ਕਰਦੇ ਹੋ. ਅਗਲੇ ਭਾਗ ਵਿੱਚ, ਅਸੀਂ ਇਸ ਡੇਟਾ ਨੂੰ ਇੱਕ CSV ਫਾਈਲ ਵਿੱਚ ਸੁਰੱਖਿਅਤ ਕਰਾਂਗੇ.
ਡਾਟਾ ਸਟੋਰ ਕਰਨਾ
ਆਓ ਸਾਡੇ ਅਸਲ ਕੋਡ ਵਿੱਚ response.css ਦੀ ਵਰਤੋਂ ਕਰੀਏ. ਅਸੀਂ ਇਸ ਬਿਆਨ ਦੁਆਰਾ ਵਾਪਸ ਕੀਤੇ ਮੁੱਲ ਨੂੰ ਇੱਕ ਵੇਰੀਏਬਲ ਵਿੱਚ ਸਟੋਰ ਕਰਾਂਗੇ ਅਤੇ ਇਸਦੇ ਬਾਅਦ, ਅਸੀਂ ਇਸਨੂੰ ਇੱਕ CSV ਫਾਈਲ ਵਿੱਚ ਸਟੋਰ ਕਰਾਂਗੇ. ਹੇਠ ਲਿਖੇ ਕੋਡ ਦੀ ਵਰਤੋਂ ਕਰੋ:
def parse_detail_page(self, response): location = response.css('.text > .listing-company > .listing-location > a::text').extract() item = MyfirstscrapyItem() item['location'] = location item['url'] = response.url yield item
ਇੱਥੇ ਅਸੀਂ response.css ਦੇ ਨਤੀਜੇ ਨੂੰ ਇੱਕ ਵੇਰੀਏਬਲ ਵਿੱਚ ਸਟੋਰ ਕੀਤਾ ਜਿਸਨੂੰ ਕਹਿੰਦੇ ਹਨ ਟਿਕਾਣਾ . ਫਿਰ ਅਸੀਂ ਇਸ ਵੇਰੀਏਬਲ ਨੂੰ MyfirstscrapyItem () ਕਲਾਸ ਵਿੱਚ ਆਈਟਮ ਦੀ ਲੋਕੇਸ਼ਨ ਆਬਜੈਕਟ ਨੂੰ ਸੌਂਪਿਆ.
ਆਪਣੇ ਕ੍ਰਾਲਰ ਨੂੰ ਚਲਾਉਣ ਅਤੇ ਨਤੀਜਾ ਇੱਕ CSV ਫਾਈਲ ਵਿੱਚ ਸਟੋਰ ਕਰਨ ਲਈ ਹੇਠ ਲਿਖੀ ਕਮਾਂਡ ਚਲਾਓ:
scrapy crawl jobs -o ScrappedData.csv
ਪ੍ਰੋਜੈਕਟ ਡਾਇਰੈਕਟਰੀ ਵਿੱਚ ਇੱਕ CSV ਫਾਈਲ ਤਿਆਰ ਕਰੇਗੀ:
ਵੈਬ ਪੇਜਾਂ ਨੂੰ ਕ੍ਰੌਲ ਕਰਨ ਲਈ ਸਕ੍ਰੈਪੀ ਇੱਕ ਬਹੁਤ ਹੀ ਅਸਾਨ ਫਰੇਮਵਰਕ ਹੈ. ਇਹ ਸਿਰਫ ਸ਼ੁਰੂਆਤ ਸੀ. ਜੇ ਤੁਸੀਂ ਟਿorialਟੋਰਿਅਲ ਨੂੰ ਪਸੰਦ ਕਰਦੇ ਹੋ ਅਤੇ ਹੋਰ ਭੁੱਖੇ ਹੋ, ਤਾਂ ਸਾਨੂੰ ਟਿੱਪਣੀਆਂ ਤੇ ਦੱਸੋ ਕਿ ਅਗਲਾ ਸਕ੍ਰੈਪੀ ਵਿਸ਼ਾ ਕੀ ਹੈ ਜਿਸ ਬਾਰੇ ਤੁਸੀਂ ਪੜ੍ਹਨਾ ਚਾਹੋਗੇ?
ਹੋਰ ਪੜ੍ਹਨਾ:
Py ਪਾਇਥਨ ਨਾਲ ਵੱਖ -ਵੱਖ ਸ਼ੀਟਾਂ ਤੋਂ ਡਾਟਾ ਕੱਣਾ
Sing ਇੱਕ ਸਿੰਗਲ ਜੁਪੀਟਰ ਨੋਟਬੁੱਕ ਵਿੱਚ ਆਰ ਅਤੇ ਪਾਇਥਨ ਦੀ ਗਾਈਡ
Rab RabbitMQ: ਪਾਇਥਨ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕਰਨਾ
☞ 10 ਮਿੰਟਾਂ ਵਿੱਚ ਜੈਂਗੋ ਦੁਆਰਾ ਐਸ 3 ਤੇ ਫਾਈਲ ਅਪਲੋਡਸ ਸੈਟ ਅਪ ਕਰੋ
Py ਪਾਇਥਨ ਵਿੱਚ ਸਥਿਤੀ-ਸਿਰਫ ਆਰਗੂਮੈਂਟ
☞ ਬੇਨਤੀਆਂ ਦੇ ਨਾਲ ਪਾਇਥਨ ਵਿੱਚ ਮਲਟੀਪਾਰਟ ਫਾਰਮ ਡੇਟਾ ਪੋਸਟ ਕਰੋ: ਫਲਾਸਕ ਫਾਈਲ ਅਪਲੋਡ ਉਦਾਹਰਣ
ਟਰੱਸਟ ਵਾਲੇਟ 'ਤੇ ਕੈਸ਼ ਆਊਟ ਕਿਵੇਂ ਕਰਨਾ ਹੈ
Py ਪਾਇਥਨ ਫੰਕਸ਼ਨਾਂ ਦੇ ਨਾਲ ਮਾਡਯੂਲਰ ਪ੍ਰਾਪਤ ਕਰੋ
Begin ਸ਼ੁਰੂਆਤ ਕਰਨ ਵਾਲਿਆਂ ਲਈ ਪਾਈਥਨ ਦੇ ਛੇ ਸੁਝਾਅ
☞ ਪਾਇਥਨ ਵਿੱਚ ਵੈਬ ਸਕ੍ਰੈਪਿੰਗ 101
Py 5 ਪਾਈਥਨ ਫਰੇਮਵਰਕਸ ਤੁਹਾਨੂੰ 2019 ਸਿੱਖਣੇ ਚਾਹੀਦੇ ਹਨ
#python #ਵੈਬ-ਵਿਕਾਸ
likegeeks.com
ਸਕ੍ਰੈਪੀ ਦੀ ਵਰਤੋਂ ਕਰਦਿਆਂ ਆਪਣਾ ਪਹਿਲਾ ਪਾਈਥਨ ਵੈਬ ਕ੍ਰਾਲਰ ਬਣਾਉ
ਇਸ ਟਿ utorial ਟੋਰਿਅਲ ਵਿੱਚ, ਫੋਕਸ ਵੈਬ ਕ੍ਰੌਲਿੰਗ ਲਈ ਸਰਬੋਤਮ ਫਰੇਮਵਰਕਾਂ ਵਿੱਚੋਂ ਇੱਕ 'ਤੇ ਰਹੇਗਾ ਜਿਸਨੂੰ ਸਕ੍ਰੈਪੀ ਕਿਹਾ ਜਾਂਦਾ ਹੈ. ਤੁਸੀਂ ਸਕ੍ਰੈਪੀ ਦੀਆਂ ਮੂਲ ਗੱਲਾਂ ਅਤੇ ਆਪਣਾ ਪਹਿਲਾ ਵੈਬ ਕ੍ਰਾਲਰ ਜਾਂ ਮੱਕੜੀ ਕਿਵੇਂ ਬਣਾਉਣਾ ਹੈ ਬਾਰੇ ਸਿੱਖੋਗੇ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਟਿਯੂਟੋਰਿਅਲ ਸਕ੍ਰੈਪਡ ਡੇਟਾ ਨੂੰ ਐਕਸਟਰੈਕਟ ਕਰਨ ਅਤੇ ਸਟੋਰ ਕਰਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਦਿੰਦਾ ਹੈ.