91传媒福利在线观看,在厨房我撕开岳的丁字裤

人妖在线一区,国产日韩欧美一区二区综合在线,国产啪精品视频网站免费,欧美内射深插日本少妇

公司動態(tài)

產(chǎn)品資訊

行業(yè)資訊

輕云服務(wù)器升級CN2線路有什么優(yōu)點

一、項目需求

爬取排行榜小說的作者，書名，分類以及完結(jié)或連載

二、項目分析

目標(biāo)url：“https://www.qidian.com/rank/hotsales?style=1&page=1”

通過控制臺搜索發(fā)現(xiàn)相應(yīng)信息均存在于html靜態(tài)網(wǎng)頁中，所以此次爬蟲難度較低。

通過控制臺觀察發(fā)現(xiàn)，需要的內(nèi)容都在一個個li列表中，每一個列表代表一本書的內(nèi)容。

在li中找到所需的內(nèi)容

找到第兩頁的url
“https://www.qidian.com/rank/hotsales?style=1&page=1”
“https://www.qidian.com/rank/hotsales?style=1&page=2”
對比找到頁數(shù)變化
開始編寫scrapy程序。

三、程序編寫

創(chuàng)建項目太簡單，不說了

1.編寫item（數(shù)據(jù)存儲）

import scrapy
class QidianHotItem(scrapy.Item):
 name = scrapy.Field() #名稱
 author = scrapy.Field() #作者
 type = scrapy.Field() #類型
 form= scrapy.Field() #是否完載

2.編寫spider（數(shù)據(jù)抓取（核心代碼））

#coding:utf-8
from scrapy import Request
from scrapy.spiders import Spider
from ..items import QidianHotItem
#導(dǎo)入下需要的庫
class HotSalesSpider(Spider):#設(shè)置spider的類
 name = "hot" #爬蟲的名稱
 qidian_header={"user-agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"} #設(shè)置header
 current_page = 1 #爬蟲起始頁
 def start_requests(self): #重寫第一次請求
  url="https://www.qidian.com/rank/hotsales?style=1&page=1"
  yield Request(url,headers=self.qidian_header,callback=self.hot_parse)
		#Request發(fā)起鏈接請求
		#url：目標(biāo)url
		#header:設(shè)置頭部（模擬瀏覽器）
		#callback:設(shè)置頁面抓起方式（空默認(rèn)為parse）
 def hot_parse(self, response):#數(shù)據(jù)解析
  #xpath定位
  list_selector=response.xpath("http://div[@class='book-mid-info']")
  #獲取所有小說
  for one_selector in list_selector:
#獲取小說信息
name=one_selector.xpath("h4/a/text()").extract()[0]
#獲取作者
author=one_selector.xpath("p[1]/a[1]/text()").extract()[0]
#獲取類型
type=one_selector.xpath("p[1]/a[2]/text()").extract()[0]
# 獲取形式
form=one_selector.xpath("p[1]/span/text()").extract()[0]
item = QidianHotItem()
#生產(chǎn)存儲器，進(jìn)行信息存儲
item['name'] = name
item['author'] = author
item['type'] = type
item['form'] = form
yield item #送出信息
# 獲取下一頁URL，并生成一個request請求
self.current_page += 1
if self.current_page <= 10:#爬取前10頁
 next_url = "https://www.qidian.com/rank/hotsales?style=1&page="+str(self.current_page)
 yield Request(url=next_url,headers=self.qidian_header,callback=self.hot_parse)

 def css_parse(self,response):
  #css定位
  list_selector = response.css("[class='book-mid-info']")
  for one_selector in list_selector:
# 獲取小說信息
name = one_selector.css("h4>a::text").extract()[0]
# 獲取作者
author = one_selector.css(".author a::text").extract()[0]
# 獲取類型
type = one_selector.css(".author a::text").extract()[1]
# 獲取形式
form = one_selector.css(".author span::text").extract()[0]
# 定義字典
item=QidianHotItem()
item['name']=name
item['author'] = author
item['type'] = type
item['form'] = form
yield  item

3.start.py（代替命令行）

在爬蟲項目文件夾下創(chuàng)建start.py。

from scrapy import cmdline
#導(dǎo)入cmd命令窗口
cmdline.execute("scrapy crawl hot -o hot.csv" .split())
#運行爬蟲并生產(chǎn)csv文件

出現(xiàn)類似的過程代表爬取成功。

hot.csv

總結(jié)

本次爬蟲內(nèi)容還是十分簡單的因為只用了spider和item，這幾乎是所有scrapy都必須調(diào)用的文件，后期還會有middlewarse.py，pipelines.py,setting.py需要編寫和配置，以及從javascript和json中提取數(shù)據(jù)，難度較大。

到此這篇關(guān)于Python scrapy爬取起點中文網(wǎng)小說榜單的文章就介紹到這了,更多相關(guān)Python爬取起點中文網(wǎng)內(nèi)容請搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站！

國外服務(wù)器租用

版權(quán)聲明：本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有，歡迎引用、轉(zhuǎn)載，請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站，禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像，否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來，僅供學(xué)習(xí)參考，不代表本站立場，如有內(nèi)容涉嫌侵權(quán)，請聯(lián)系alex-e#qq.com處理。

相關(guān)文章

動態(tài)撥號：關(guān)鍵詞排名下降是啥緣故，快速提高排名怎樣做

排名優(yōu)化：網(wǎng)站排名優(yōu)化方法有什么，如何做有效果

老域名：怎樣才算老域名，老域名建站有什么影響

內(nèi)容優(yōu)化：關(guān)鍵字排名要做哪些方面的優(yōu)化，怎樣做

技巧：網(wǎng)站轉(zhuǎn)化率究竟是什么，有什么提升的技巧

一下吧：外貿(mào)站優(yōu)化有哪些基本的做法和注意事項

概要：競價推廣費用大概要多少呢，競價推廣好不好

一下吧：SEO中site是什么意思，作用和應(yīng)用是怎樣的

郵箱：付費郵箱有哪些優(yōu)勢，付費郵箱挑選要考慮什么

集群是什么意思：集群是什么意思，都有哪些優(yōu)勢呢