人妖在线一区,国产日韩欧美一区二区综合在线,国产啪精品视频网站免费,欧美内射深插日本少妇

新聞動(dòng)態(tài)

Go語言并發(fā)爬蟲的具體實(shí)現(xiàn)

發(fā)布日期:2022-02-04 08:18 | 文章來源:CSDN

寫在前面

這篇文章主要讓大家明白多線程爬蟲,因?yàn)間o語言實(shí)現(xiàn)并發(fā)是很容易的。

這次的服務(wù)端,是我們之前搭建的電子商城平臺(tái),所以我們不擔(dān)心ip被封之類的問題。
而實(shí)際生產(chǎn)環(huán)境中,其實(shí)我們都是用python爬蟲的。python實(shí)現(xiàn)多線程也很簡單。

這次我們可以試試新玩法,試試go語言的并發(fā)爬蟲。

主要是爬取第一頁的商品,爬取十次,比較單線程和多線程的時(shí)間。

1. 單線程爬蟲

?定義一個(gè)用戶

var Client http.Client

主函數(shù)

func main() {
	url := "http://localhost:3000/api/v1/products"
	start := time.Now()
	for i := 0; i < 10; i++ {
		Spider(url, i)
	}
	elapsed := time.Since(start)
	fmt.Printf("Time %s", elapsed)
}

爬取函數(shù)

func Spider(url string, i int) {
	reqSpider, err := http.NewRequest("GET", url, nil)
	if err != nil {
		log.Fatal(err)
	}
	reqSpider.Header.Set("content-length", "0")
	reqSpider.Header.Set("accept", "*/*")
	reqSpider.Header.Set("x-requested-with", "XMLHttpRequest")
	respSpider, err := Client.Do(reqSpider)
	if err != nil {
		log.Fatal(err)
	}
	bodyText, _ := ioutil.ReadAll(respSpider.Body)
	var result Result
	_ = json.Unmarshal(bodyText, &result)
	fmt.Println(i,result.Data)
}

運(yùn)行時(shí)間為:651.8207ms

2. 多線程爬蟲

2.1 channel main函數(shù)

我們構(gòu)造一個(gè)無緩沖的通道,來阻塞主進(jìn)程,等待子進(jìn)程的執(zhí)行。

func main() {
	url := "http://localhost:3000/api/v1/products"
	ch := make(chan bool)
	start := time.Now()
	for i := 0; i < 10; i++ {
		go Spider(url, ch, i)
	}
	for i := 0; i < 10; i++ {
		<-ch
	}
	elapsed := time.Since(start)
	fmt.Printf("Time %s", elapsed)
}

最后記得在爬蟲的結(jié)束的時(shí)候,把值寫入到通道中,不然會(huì)一直阻塞主進(jìn)程

運(yùn)行時(shí)間:187.7921ms 比之前快了非常多。

2.2 sync.WaitGroup

定義一個(gè)進(jìn)程組并加10個(gè)進(jìn)程

	var wg sync.WaitGroup
	wg.Add(10)

開辟十個(gè)goruntime

	for i := 0; i < 10; i++ {
		go func(i int) {
			defer wg.Done()
			SpiderWaitGroup(url,i)
		}(i)
	}

阻塞主進(jìn)程

wg.Wait()

結(jié)果:64.5246ms

3. 源碼地址

GitHub地址:https://github.com/CocaineCong/Go-Spider-Demo

	NormalStart(url) // 單線程爬蟲
	ChannelStart(url) // Channel多線程爬蟲
	WaitGroupStart(url) // Wait 多線程爬蟲

其實(shí)多線程的兩種都差不多的,只是有時(shí)候會(huì)因?yàn)闄C(jī)器的原因而導(dǎo)致一些誤差。

到此這篇關(guān)于Go語言并發(fā)爬蟲的具體實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)Go語言并發(fā)爬蟲 內(nèi)容請(qǐng)搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站!

香港服務(wù)器租用

版權(quán)聲明:本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請(qǐng)保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學(xué)習(xí)參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請(qǐng)聯(lián)系alex-e#qq.com處理。

相關(guān)文章

實(shí)時(shí)開通

自選配置、實(shí)時(shí)開通

免備案

全球線路精選!

全天候客戶服務(wù)

7x24全年不間斷在線

專屬顧問服務(wù)

1對(duì)1客戶咨詢顧問

在線
客服

在線客服:7*24小時(shí)在線

客服
熱線

400-630-3752
7*24小時(shí)客服服務(wù)熱線

關(guān)注
微信

關(guān)注官方微信
頂部