ஒரு வலைத்தளத்திலிருந்து தகவல்களை இழுக்க ஒரு அடிப்படை வலை கிராலரை உருவாக்குவது எப்படி

ஒரு வலைத்தளத்திலிருந்து தகவல்களை இழுக்க ஒரு அடிப்படை வலை கிராலரை உருவாக்குவது எப்படி

வலைத்தளங்கள் அல்லது வலை கிராலர்களில் இருந்து தகவல்களைப் படிக்கும் நிரல்கள் அனைத்து வகையான பயனுள்ள பயன்பாடுகளையும் கொண்டிருக்கின்றன. பங்குத் தகவல்கள், விளையாட்டு மதிப்பெண்கள், ட்விட்டர் கணக்கிலிருந்து உரை அல்லது ஷாப்பிங் வலைத்தளங்களிலிருந்து விலையை இழுக்கலாம்.



நீங்கள் நினைப்பதை விட இந்த வலை ஊர்ந்து செல்லும் திட்டங்களை எழுதுவது எளிது. வலைத்தளங்களிலிருந்து தகவல்களைப் பிரித்தெடுக்கும் ஸ்கிரிப்ட்களை எழுதுவதற்கு பைதான் ஒரு சிறந்த நூலகத்தைக் கொண்டுள்ளது. ஸ்க்ராபியைப் பயன்படுத்தி ஒரு வலை கிராலரை உருவாக்குவது எப்படி என்று பார்ப்போம்.





ஸ்க்ராபியை நிறுவுதல்

ஸ்கிராபி ஒரு பைதான் நூலகம், இது வலையைத் துடைத்து வலை வலைவலர்களை உருவாக்க உருவாக்கப்பட்டது. இது வேகமானது, எளிமையானது மற்றும் அதிக முயற்சி இல்லாமல் பல வலைப்பக்கங்கள் வழியாக செல்ல முடியும்.





பிப் இன்ஸ்டால்ஸ் பைதான் (பிஐபி) நூலகம் மூலம் ஸ்கிராபி கிடைக்கிறது, இங்கே ஒரு புதுப்பிப்பு உள்ளது விண்டோஸ், மேக் மற்றும் லினக்ஸில் பிஐபியை எவ்வாறு நிறுவுவது .

பைதான் மெய்நிகர் சூழலைப் பயன்படுத்துவது விரும்பப்படுகிறது, ஏனெனில் இது உங்கள் கணினி கோப்புகளை தனியாக விட்டுச்செல்லும் மெய்நிகர் கோப்பகத்தில் ஸ்கிராப்பை நிறுவ அனுமதிக்கும். ஸ்கிராபியின் ஆவணங்கள் சிறந்த முடிவுகளைப் பெற இதைச் செய்ய பரிந்துரைக்கிறது.



ஒரு கோப்பகத்தை உருவாக்கி ஒரு மெய்நிகர் சூழலை துவக்கவும்.

விண்டோஸில் மேக் இயக்குவது எப்படி
mkdir crawler
cd crawler
virtualenv venv
. venv/bin/activate

நீங்கள் இப்போது PIP கட்டளையைப் பயன்படுத்தி அந்த கோப்பகத்தில் ஸ்கிராப்பை நிறுவலாம்.





pip install scrapy

ஸ்கிராபி சரியாக நிறுவப்பட்டுள்ளதா என்பதை உறுதிப்படுத்த விரைவான சோதனை

scrapy
# prints
Scrapy 1.4.0 - no active project
Usage:
scrapy [options] [args]
Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
runspider Run a self-contained spider (without creating a project)
...

ஒரு வலை கிராலரை உருவாக்குவது எப்படி

இப்போது சூழல் தயாராக உள்ளது, நீங்கள் வலை கிராலரை உருவாக்கத் தொடங்கலாம். பேட்டரிகளில் உள்ள விக்கிபீடியா பக்கத்திலிருந்து சில தகவல்களைத் துடைப்போம்: https://en.wikipedia.org/wiki/Battery_(electricity) .





ஒரு கிராலரை எழுதுவதற்கான முதல் படி ஒரு பைதான் வகுப்பை வரையறுக்கிறது ஸ்கிராபி. சிலந்தி . ஸ்கிராப்பியில் உள்ள அனைத்து செயல்பாடுகள் மற்றும் அம்சங்களுக்கான அணுகலை இது வழங்குகிறது. இந்த வகுப்பை அழைக்கலாம் சிலந்தி 1 .

ஒரு சிலந்தி வர்க்கத்திற்கு சில தகவல்கள் தேவை:

  • க்கு பெயர் சிலந்தியை அடையாளம் காண
  • க்கு start_urls வலைவலம் செய்ய வேண்டிய URL களின் பட்டியலைக் கொண்ட மாறி (விக்கிபீடியா URL இந்த டுடோரியலில் உதாரணம்)
  • க்கு பாகம் () தகவலைப் பிரித்தெடுக்க வலைப்பக்கத்தை செயலாக்க பயன்படும் முறை
import scrapy
class spider1(scrapy.Spider):
name = 'Wikipedia'
start_urls = ['https://en.wikipedia.org/wiki/Battery_(electricity)']
def parse(self, response):
pass

எல்லாம் சரியாக இயங்குகிறதா என்பதை உறுதி செய்ய ஒரு விரைவான சோதனை.

scrapy runspider spider1.py
# prints
2017-11-23 09:09:21 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapybot)
2017-11-23 09:09:21 [scrapy.utils.log] INFO: Overridden settings: {'SPIDER_LOADER_WARN_ONLY': True}
2017-11-23 09:09:21 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.memusage.MemoryUsage',
'scrapy.extensions.logstats.LogStats',
...

பதிவு செய்வதை முடக்குகிறது

இந்த வகுப்புடன் ஸ்கிராப்பை இயக்குவது இப்போது உங்களுக்கு உதவாது பதிவு தகவலை அச்சிடுகிறது. இந்த அதிகப்படியான பதிவுத் தகவலை நீக்கி எளிதாக்குவோம். ஒரு பயன்படுத்தவும் எச்சரிக்கை கோப்பின் தொடக்கத்தில் குறியீட்டைச் சேர்ப்பதன் மூலம் அறிக்கை.

import logging
logging.getLogger('scrapy').setLevel(logging.WARNING)

இப்போது நீங்கள் ஸ்கிரிப்டை மீண்டும் இயக்கும்போது, ​​பதிவுத் தகவல் அச்சிடப்படாது.

குரோம் இன்ஸ்பெக்டரைப் பயன்படுத்துதல்

ஒரு வலைப்பக்கத்தில் உள்ள அனைத்தும் HTML கூறுகளில் சேமிக்கப்படும். கூறுகள் ஆவணப் பொருள் மாதிரியில் (DOM) ஏற்பாடு செய்யப்பட்டுள்ளன. DOM ஐப் புரிந்துகொள்வது உங்கள் வலை கிராலரில் இருந்து அதிகமானவற்றைப் பெறுவதற்கு மிக முக்கியமானது. ஒரு வலை கிராலர் தகவலைக் கண்டுபிடிக்க ஒரு பக்கத்தில் உள்ள அனைத்து HTML கூறுகளையும் தேடுகிறது, எனவே அவை எவ்வாறு ஏற்பாடு செய்யப்பட்டுள்ளன என்பதை அறிவது முக்கியம்.

கூகிள் குரோம் HTML உறுப்புகளை வேகமாக கண்டுபிடிக்க உதவும் கருவிகளைக் கொண்டுள்ளது. இன்ஸ்பெக்டரைப் பயன்படுத்தி வலைப்பக்கத்தில் நீங்கள் காணும் எந்த உறுப்புக்கும் HTML ஐக் கண்டறியலாம்.

  • Chrome இல் ஒரு பக்கத்திற்கு செல்லவும்
  • நீங்கள் பார்க்க விரும்பும் உறுப்பு மீது சுட்டியை வைக்கவும்
  • வலது கிளிக் செய்து தேர்ந்தெடுக்கவும் ஆய்வு செய்யவும் மெனுவிலிருந்து

இந்த படிகள் டெவலப்பர் கன்சோலைத் திறக்கும் கூறுகள் தாவல் தேர்ந்தெடுக்கப்பட்டது. கன்சோலின் அடிப்பகுதியில், நீங்கள் உறுப்புகளின் ஒரு மரத்தைக் காண்பீர்கள். இந்த மரம் எப்படி உங்கள் ஸ்கிரிப்டுக்கான தகவல்களைப் பெறும்.

தலைப்பை பிரித்தெடுத்தல்

எங்களுக்காக சில வேலைகளைச் செய்ய ஸ்கிரிப்டைப் பெறுவோம்; வலைப்பக்கத்தின் தலைப்பு உரையைப் பெற எளிய வலைவலம்.

சில குறியீடுகளைச் சேர்ப்பதன் மூலம் ஸ்கிரிப்டைத் தொடங்கவும் பாகம் () தலைப்பைப் பிரித்தெடுக்கும் முறை.

...
def parse(self, response):
print response.css('h1#firstHeading::text').extract()
...

தி பதில் வாதம் என்ற முறையை ஆதரிக்கிறது CSS () நீங்கள் வழங்கும் இடத்தைப் பயன்படுத்தி பக்கத்திலிருந்து உறுப்புகளைத் தேர்ந்தெடுக்கிறது.

இந்த எடுத்துக்காட்டில், உறுப்பு உள்ளது h1. முதல் தலைமுறை . சேர்த்து

::text

ஸ்கிரிப்ட் என்பது உறுப்பின் உரை உள்ளடக்கத்தை உங்களுக்கு வழங்குகிறது. இறுதியாக, தி சாறு () தேர்ந்தெடுக்கப்பட்ட உறுப்பை முறை வழங்குகிறது.

ஸ்க்ராபியில் இந்த ஸ்கிரிப்டை இயக்குவது தலைப்பை உரை வடிவத்தில் அச்சிடுகிறது.

[u'Battery (electricity)']

விளக்கத்தைக் கண்டறிதல்

இப்போது தலைப்பு உரையை நாங்கள் ஸ்கிராப் செய்துள்ளோம், மேலும் ஸ்கிரிப்டைச் செய்வோம். கிராலர் தலைப்புக்குப் பிறகு முதல் பத்தியைக் கண்டுபிடித்து இந்தத் தகவலைப் பிரித்தெடுக்கப் போகிறார்.

Chrome டெவலப்பர் கன்சோலில் உள்ள உறுப்பு மரம் இங்கே:

எனக்கு என்ன கூகுள் செய்வது என்று தெரியவில்லை
div#mw-content-text>div>p

வலது அம்பு (>) உறுப்புகளுக்கு இடையிலான பெற்றோர்-குழந்தை உறவைக் குறிக்கிறது.

இந்த இடம் அனைத்தையும் திருப்பித் தரும் உறுப்புகள் பொருந்துகின்றன, இதில் முழு விளக்கமும் அடங்கும். முதல் பெற இந்த குறியீட்டை நீங்கள் எழுதக்கூடிய உறுப்பு:

response.css('div#mw-content-text>div>p')[0]

தலைப்பைப் போலவே, நீங்கள் CSS பிரித்தெடுத்தலைச் சேர்க்கிறீர்கள்

::text

உறுப்பின் உரை உள்ளடக்கத்தைப் பெற.

response.css('div#mw-content-text>div>p')[0].css('::text')

இறுதி வெளிப்பாடு பயன்படுத்துகிறது சாறு () பட்டியலை திருப்பி அளிக்க. நீங்கள் பைத்தானைப் பயன்படுத்தலாம் சேர் () அனைத்து வலைவலம் முடிந்ததும் பட்டியலில் சேர செயல்பாடு.

def parse(self, response):
print ''.join(response.css('div#mw-content-text>div>p')[0].css('::text').extract())

இதன் விளைவாக உரையின் முதல் பத்தி!

An electric battery is a device consisting of one or more electrochemical cells with external connections provided to power electrical devices such as flashlights, smartphones, and electric cars.[1] When a battery is supplying electric power, its positive terminal is
...

JSON தரவைச் சேகரித்தல்

ஸ்கிராபி உரை வடிவத்தில் தகவல்களைப் பிரித்தெடுக்க முடியும், இது பயனுள்ளதாக இருக்கும். ஸ்கிராபி தரவை ஜாவாஸ்கிரிப்ட் ஆப்ஜெக்ட் நோட்டேஷன் (JSON) பார்க்க உதவுகிறது. JSON என்பது தகவலை ஒழுங்கமைப்பதற்கான ஒரு நேர்த்தியான வழியாகும் மற்றும் வலை வளர்ச்சியில் பரவலாக பயன்படுத்தப்படுகிறது. JSON பைத்தானுடன் நன்றாக வேலை செய்கிறது அத்துடன்.

JSON என நீங்கள் தரவைச் சேகரிக்க வேண்டியிருக்கும் போது, ​​நீங்கள் அதைப் பயன்படுத்தலாம் விளைச்சல் ஸ்கிராப்பியில் உள்ளமைக்கப்பட்ட அறிக்கை.

மகசூல் அறிக்கையைப் பயன்படுத்தி ஸ்கிரிப்டின் புதிய பதிப்பு இங்கே. உரை வடிவத்தில் முதல் p உறுப்பைப் பெறுவதற்குப் பதிலாக, இது அனைத்து p உறுப்புகளையும் பிடித்து JSON வடிவத்தில் ஒழுங்கமைக்கும்.

ட்விட்டரில் ஹேஷ்டேக்குகளை எவ்வாறு தடுப்பது
...
def parse(self, response):
for e in response.css('div#mw-content-text>div>p'):
yield { 'para' : ''.join(e.css('::text').extract()).strip() }
...

வெளியீடு JSON கோப்பைக் குறிப்பிடுவதன் மூலம் நீங்கள் இப்போது சிலந்தியை இயக்கலாம்:

scrapy runspider spider3.py -o joe.json

ஸ்கிரிப்ட் இப்போது அனைத்து p கூறுகளையும் அச்சிடும்.

[
{'para': 'An electric battery is a device consisting of one or more electrochemical cells with external connections provided to power electrical devices such as flashlights, smartphones, and electric cars.[1] When a battery is supplying electric power, its positive terminal is the cathode and its negative terminal is the anode.[2] The terminal marked negative is the source of electrons that when connected to an external circuit will flow and deliver energy to an external device. When a battery is connected to an external circuit, electrolytes are able to move as ions within, allowing the chemical reactions to be completed at the separate terminals and so deliver energy to the external circuit. It is the movement of those ions within the battery which allows current to flow out of the battery to perform work.[3] Historically the term 'battery' specifically referred to a device composed of multiple cells, however the usage has evolved additionally to include devices composed of a single cell.[4]'},
{'para': 'Primary (single-use or 'disposable') batteries are used once and discarded; the electrode materials are irreversibly changed during discharge. Common examples are the alkaline battery used for flashlights and a multitude of portable electronic devices. Secondary (rechargeable) batteries can be discharged and recharged multiple
...

பல கூறுகளைத் துடைத்தல்

இதுவரை வலை கிராலர் தலைப்பையும் பக்கத்திலிருந்து ஒரு வகையான உறுப்பையும் ஸ்கிராப் செய்துள்ளது. ஸ்கிராபி ஒரு ஸ்கிரிப்டில் பல்வேறு வகையான கூறுகளிலிருந்து தகவல்களைப் பிரித்தெடுக்க முடியும்.

வார இறுதி நாட்களில் சிறந்த ஐஎம்டிபி பாக்ஸ் ஆபிஸ் வெற்றிகளைப் பெறுவோம். இந்த தகவல் இதிலிருந்து எடுக்கப்பட்டது http://www.imdb.com/chart/boxoffice , ஒவ்வொரு மெட்ரிக்கிற்கும் வரிசைகள் கொண்ட அட்டவணையில்.

தி பாகம் () முறை வரிசையில் இருந்து ஒன்றுக்கு மேற்பட்ட புலங்களை பிரித்தெடுக்க முடியும். குரோம் டெவலப்பர் கருவிகளைப் பயன்படுத்தி அட்டவணையில் உள்ள உறுப்புகளைக் காணலாம்.

...
def parse(self, response):
for e in response.css('div#boxoffice>table>tbody>tr'):
yield {
'title': ''.join(e.css('td.titleColumn>a::text').extract()).strip(),
'weekend': ''.join(e.css('td.ratingColumn')[0].css('::text').extract()).strip(),
'gross': ''.join(e.css('td.ratingColumn')[1].css('span.secondaryInfo::text').extract()).strip(),
'weeks': ''.join(e.css('td.weeksColumn::text').extract()).strip(),
'image': e.css('td.posterColumn img::attr(src)').extract_first(),
}
...

தி படம் தேர்வாளர் அதை குறிப்பிடுகிறார் img வாரிசாகும் td.posterColumn . சரியான பண்புகளைப் பிரித்தெடுக்க, வெளிப்பாட்டைப் பயன்படுத்தவும் | _+_ |.

சிலந்தியை இயக்குவது JSON ஐ வழங்குகிறது:

::attr(src)

மேலும் வலை ஸ்கிராப்பர்கள் மற்றும் போட்கள்

ஸ்கிராபி என்பது ஒரு விரிவான நூலகமாகும், இது நீங்கள் கேட்கும் எந்த வலை வலையையும் செய்ய முடியும். பைத்தானின் ஆதரவுடன் இணைந்து, HTML கூறுகளில் தகவல்களைக் கண்டுபிடிக்கும்போது, ​​அதை வெல்வது கடினம். நீங்கள் ஒரு வலை கிராலரை உருவாக்கினாலும் அல்லது வலை ஸ்கிராப்பிங்கின் அடிப்படைகளைப் பற்றி கற்றுக் கொண்டாலும் ஒரே வரம்பு நீங்கள் எவ்வளவு கற்றுக்கொள்ளத் தயாராக இருக்கிறீர்கள் என்பதுதான்.

கிராலர்கள் அல்லது போட்களை உருவாக்க நீங்கள் அதிக வழிகளைத் தேடுகிறீர்களானால் நீங்கள் முயற்சி செய்யலாம் பைத்தானைப் பயன்படுத்தி ட்விட்டர் மற்றும் இன்ஸ்டாகிராம் போட்களை உருவாக்குங்கள் . பைதான் வலை வளர்ச்சியில் சில அற்புதமான விஷயங்களை உருவாக்க முடியும், எனவே இந்த மொழியை ஆராயும் போது வலை கிராலர்களுக்கு அப்பால் செல்வது மதிப்பு.

பகிர் பகிர் ட்வீட் மின்னஞ்சல் 15 விண்டோஸ் கட்டளை வரியில் (சிஎம்டி) நீங்கள் கட்டாயம் தெரிந்து கொள்ள வேண்டிய கட்டளைகள்

கட்டளை வரியில் இன்னும் சக்திவாய்ந்த விண்டோஸ் கருவி. ஒவ்வொரு விண்டோஸ் பயனரும் தெரிந்து கொள்ள வேண்டிய மிகவும் பயனுள்ள சிஎம்டி கட்டளைகள் இங்கே.

அடுத்து படிக்கவும்
தொடர்புடைய தலைப்புகள்
  • நிரலாக்க
  • வெப்மாஸ்டர் கருவிகள்
  • நிரலாக்க
  • பைதான்
  • குறியீட்டு பயிற்சிகள்
  • வலை கிராலர்கள்
எழுத்தாளர் பற்றி அந்தோனி கிராண்ட்(40 கட்டுரைகள் வெளியிடப்பட்டன)

அந்தோனி கிராண்ட் நிரலாக்க மற்றும் மென்பொருளை உள்ளடக்கிய ஒரு ஃப்ரீலான்ஸ் எழுத்தாளர். அவர் கணினி அறிவியல், நிரலாக்கம், எக்செல், மென்பொருள் மற்றும் தொழில்நுட்பத்தில் முக்கிய பங்கு வகிக்கிறார்.

அந்தோனி கிராண்டின் மேலும்

எங்கள் செய்திமடலுக்கு குழுசேரவும்

தொழில்நுட்ப குறிப்புகள், மதிப்புரைகள், இலவச மின் புத்தகங்கள் மற்றும் பிரத்யேக ஒப்பந்தங்களுக்கு எங்கள் செய்திமடலில் சேரவும்!

குழுசேர இங்கே சொடுக்கவும்