当前位置:网站首页>Reptiles
Reptiles
2021-09-15 05:09:29 【Base des programmeurs】
Qu'est - ce qu'un reptile?
Les reptiles sontDemandeSite Web etExtractionLes donnéesAutomatisationProcédure
Processus de base du crawler
- Demande d'initiation:AdoptionHTTPLa Bibliothèque lance une demande au site cible,C'est - à - dire envoyer unRequest,La demande peut contenir desheadersAttendez les informations,Attendre la réponse du serveur.
- Obtenir le contenu de la réponse:Si le serveur répond correctement,J'en aurai un.Response,ResponseC'est le contenu de la page que vous voulez obtenir,Les types peuvent avoirHTML,JsonString,Données binaires(Comme la vidéo d'image)Isotype.
- Analyser le contenu:Ce que vous obtenez peut êtreHTML,Vous pouvez utiliser des expressions régulières、Bibliothèque d'analyse de page Web pour l'analyse,Ça pourrait êtreJson,Peut être converti directement enJsonRésolution d'objets,Peut - être des données binaires,Peut être sauvegardé ou traité plus avant
- Enregistrer les données:Les formes de conservation sont variées,Peut être sauvegardé sous forme de texte,Peut également être sauvegardé dans la base de données,Ou enregistrer un fichier dans un format spécifique
RequestContenu inclus:
- Mode de demande(Principalement:GET、POSTDeux types)
- DemandeURL(URLNom complet localisateur de ressources unifié,Comme un document Web、Une image、Une vidéo peut être utiliséeURLC'est le seul moyen de déterminer)
- En - tête de la demande(Contient les informations d'en - tête au moment de la demande,Par exemple:User-Agent、Host、CookiesAttendez les informations)
- Corps demandeur( Données supplémentaires sur demande , Comme les données du formulaire au moment de la soumission du formulaire )
ResponseContenu inclus:
- État de la réponse( Il y a plusieurs états de réponse ,Par exemple:200Pour le succès、301Saut、404 Page introuvable 、502Erreur du serveur)
- En - tête de réponse( Par exemple, type de contenu 、Longueur du contenu、Informations sur le serveur、ParamètresCookieAttendez un peu!)
- Corps de réponse( La partie la plus importante , Contient le contenu de la ressource demandée , Comme une page Web HTML、 Données binaires d'image, etc. )
Quelles données saisir ?
- Texte de la page Web (Par exemple:HTMLDocumentation、Json Formatage du texte, etc. )
- Photos( Obtenir un fichier binaire , Enregistrer au format image )
- Vidéo( Aussi binaire , Enregistrer au format vidéo )
- Autres( Dès que possible. ,Vous pouvez obtenir)
Comment analyser ?(Méthode analytique)
- Traitement direct ( Le contenu retourné est relativement simple ,Par exemple,:String)
- JsonAnalyse(AdoptionAJAX Données chargées )
- Expression régulière
- BeautifulSoupAnalyser la bibliothèque
- PyQueryAnalyser la bibliothèque
- XPathAnalyser la bibliothèque
Pourquoi les données saisies sont - elles différentes de ce que le navigateur voit? ?
- JavaScriptProblèmes de rendu
- La solution:
- AnalyseAjaxDemande
- UtiliserSelenium/WebDriver Conduire un navigateur pour simuler le chargement d'une page Web
- SplashBibliothèque
Comment enregistrer les données ?
- Texte(Texte simple、Json、XmlAttendez.)
- Base de données relationnelle(Par exemple:MySQL、Oracle、SQL Server Stockage structuré sous forme de table, etc. )
- Base de données non relationnelle(Par exemple:MongoDB、RedisAttendez.Key-ValueStockage formel)
- Binaires(Comme les photos、Vidéo、 L'audio, etc., est sauvegardé directement dans un format spécifique )
版权声明
本文为[Base des programmeurs]所创,转载请带上原文链接,感谢
https://chowdera.com/2021/09/20210915050047048o.html
边栏推荐
- Skyler's actual combat penetration notes (III) - Raven
- Provable safety
- J'ai ri toute la journée.
- Artefact de recherche d'aide - terminal distant en temps réel
- Continuous deployment tools Argo CD - use
- Continuous deployment tools Argo CD - install
- 字节大神强推千页PDF学习笔记,阿里Android面试必问
- 字节大神强推千页PDF学习笔记,【面试总结】
- 字节大牛耗时八个月又一力作,原理解析
- 字節大神强推千頁PDF學習筆記,【面試總結】
猜你喜欢
-
字節大神强推千頁PDF學習筆記,阿裏Android面試必問
-
Byte Big God Push thousand pages PDF Learning notes, [Summary of interview]
-
Le Grand Dieu des octets pousse des milliers de pages de notes d'apprentissage PDF, Ali Android interview must ask
-
A été abusé par la conception du système
-
Soul painter: cartoon illustration SSH
-
Serial | Internet of things framework serversuper tutorial - 6. Concurrent communication mode development and precautions
-
Restore openstack virtual machine using virtual machine backup software
-
swagger2 Illegal DefaultValue null for parameter type integer
-
Drive module company records
-
The revival of technological minimalism
随机推荐
- Octet Big Bull prend huit mois et travaille dur.
- Comment reconnaître la validité d'une adresse avec une machine à l'état fini?
- How to use cqrs to effectively cut the code base according to business functions?
- Lemmy - link aggregator of the federal universe
- Why is reddit so slow and unreliable| HackerNews
- DDD current engineering method portfolio - Kamil
- Supprimer l'avant - dernier noeud de la liste liée
- Septembre 2021 liste des bases de données nationales - Mo Tianlun: Dream poursuit oceanbase, opengauss anti - Super polardb à un autre niveau
- 直击 2021 苹果秋季发布会:iPhone 13 全系降价,苹果彻底放大招?
- Tous les votes!Le projet Open source de weizhong linkis entre dans l'incubation Apache
- Coinbase fell after disclosing regulatory inquiries about loan products
- 直擊 2021 蘋果秋季發布會:iPhone 13 全系降價,蘋果徹底放大招?
- Cliquez directement sur le lancement d'automne 2021 d'Apple: iPhone 13 réduit les prix de l'ensemble de la gamme, Apple agrandit complètement le mouvement?
- Web vulnerability - SQL
- Tom Cat received the attention letter from Shenzhen Stock Exchange: explain the relevance between the main products and the concept of meta universe
- 推荐一款写数学公式的神器。
- Échelle élastique personnalisée de l'autoscaler knative
- Ruishu information completed the C2 round of 300 million yuan financing and released new data security products
- How to automate security compliance using kubernetes?
- Recommande un artefact pour écrire des formules mathématiques.
- If the "Maginot defense line" fails, how to do a good job in container cloud security?
- Tdsql-a makes every effort to meet the needs of massive data real-time analysis
- Word document recovery software recommendations
- [cjson] cjson learning notes (II)
- [Questions d'entrevue à haute fréquence] À vous de choisir
- 企业级项目实战讲解,我总结了所有面试题,
- 字节跳动历年Android中高级面试题全收录,算法 分布式 微服务
- 字节跳动上千道精选面试题还不刷起来,webrtc音视频开发
- Pénétration du cache et Avalanche du cache
- Can I save multiple product SKU pictures on pinduoduo by computer?
- VIM configuring C + + development environment win10
- 字節跳動上千道精選面試題還不刷起來,webrtc音視頻開發
- Des milliers de questions d'entrevue sélectionnées n'ont pas encore ét é effacées.
- Les questions d'entrevue de niveau intermédiaire et avancé d'Android au fil des ans sont entièrement incluses, et l'algorithme est distribué microservice
- J'ai résumé toutes les questions d'entrevue.
- 字節跳動曆年Android中高級面試題全收錄,算法 分布式 微服務
- 【项目管理/PMP/PMBOK第六版/新考纲】纯干货!敏捷型/Stacey矩阵/vuca/敏捷宣言/冲刺/产品负责人/敏捷团队/敏捷教练/待办事项列表/迭代任务列表/可交付产品增量
- Capacity of the Gaussian Two-Way Relay Channel to Within 1/2 Bit
- 分布式session解决方案原理
- solid works繪制航模發動機