人妖在线一区,国产日韩欧美一区二区综合在线,国产啪精品视频网站免费,欧美内射深插日本少妇

新聞動態(tài)

Python小程序爬取今日新聞拿走就能用

發(fā)布日期:2021-12-29 02:40 | 文章來源:源碼中國

核心代碼

requests.get 下載html網(wǎng)頁
bs4.BeautifulSoup 分析html內(nèi)容

from requests import get
from bs4 import BeautifulSoup as bs
from datetime import datetime as dt
def Today(style=1):
 date = dt.today()
 if style!=1: return f'{date.month}月{date.day}日'
 return f'{date.year}-{date.month:02}-{date.day:02}' 
def SinaNews(style=1):
 url1 = 'http://news.***.com.cn/'
 if style==1: url1 += 'world'
 elif style==2: url1 += 'china'
 else: url1='https://mil.news.sina.com.cn/'
 text = get(url1)
 text.encoding='uft-8'
 soup = bs(text.text,'html.parser')
 aTags = soup.find_all("a")
 return [(t.text,t['href']) for t in aTags if Today() in str(t)]

爬取標題

for i,news in enumerate(SinaNews(1)):
 print(f'No{i+1}:',news[0])
 
No1: 外媒:*****
No2: 日媒:******
......
......

內(nèi)容已馬賽克?。。?/p>

首次做爬蟲,為了方便下手找一個不用破解網(wǎng)頁的某新聞網(wǎng)站,下載網(wǎng)頁就能直接取得內(nèi)容。其中的國際、國內(nèi)和軍事新聞三個網(wǎng)頁作內(nèi)容源,requests.get下載網(wǎng)頁后,分析所得html文本,所有<a href=...>標記帶日期剛好所需要的。

爬取正文

然后再根據(jù)url下載正文網(wǎng)頁,分析可知id=‘a(chǎn)rticle'的<div>層就是正文所在位置,.get_text()是取得文本的關鍵函數(shù),然后適當做一些格式處理:

>>> def NewsDownload(url):
 html = get(url)
 html.encoding='uft-8'
 soup = bs(html.text,'html.parser')
 text = soup.find('div',id='article').get_text().strip()
 text = text.replace('點擊進入專題:','相關專題:')
 text = text.replace('  ','\n  ')
 while '\n\n\n' in text:
  text = text.replace('\n\n\n','\n\n')
 return text 
>>> url = 'https://******/w/2021-09-29/doc-iktzqtyt8811588.shtml'
>>> NewsDownload(url)
'原標題:******************************************************'
>>> 

界面代碼

使用內(nèi)置的圖形界面庫 tkinter 控件 Text 、Listbox、Scrollbar、Button。設置基本屬性、放置位置、綁定命令,然后調(diào)試到程序完工!

源代碼 News.pyw :其中涉及的網(wǎng)站名稱已馬賽克!

from requests import get
from bs4 import BeautifulSoup as bs
from datetime import datetime as dt
from os import path
import tkinter as tk 
def Today(style=1):
 date = dt.today()
 if style!=1: return f'{date.month}月{date.day}日'
 return f'{date.year}-{date.month:02}-{date.day:02}'
def SinaNews(style=1):
 url1 = 'http://news.****.com.cn/'
 if style==1: url1 += 'world'
 elif style==2: url1 += 'china'
 else: url1='https://mil.****.com.cn/'
 text = get(url1)
 text.encoding='uft-8'
 soup = bs(text.text,'html.parser')
 aTags = soup.find_all("a")
 return [(t.text,t['href']) for t in aTags if Today() in str(t)] 
def NewsList(i):
 global news
 news = SinaNews(i)
 tList.delete(0,tk.END)
 for idx,item in enumerate(news):
  tList.insert(tk.END,f'{idx+1:03} {item[0]}')
 tText.config(state=tk.NORMAL)
 tText.delete(0.0,tk.END)
 tText.config(state=tk.DISABLED)
 NewsShow(0)
def NewsList1(): NewsList(1)
def NewsList2(): NewsList(2)
def NewsList3(): NewsList(3) 
def NewsShow(idx):
 if idx!=0:
  idx = tList.curselection()[0]
 title,url = news[idx][0],news[idx][1]
 html = get(url)
 html.encoding='uft-8'
 soup = bs(html.text,'html.parser')
 text = soup.find('div',id='article').get_text().strip()
 text = text.replace('點擊進入專題:','相關專題:')
 text = text.replace('  ','\n  ')
 while '\n\n\n' in text:
  text = text.replace('\n\n\n','\n\n')
 tText.config(state=tk.NORMAL)
 tText.delete(0.0,tk.END)
 tText.insert(tk.END, title+'\n\n'+text)
 tText.config(state=tk.DISABLED)
def InitWindow(self,W,H):
 Y = self.winfo_screenheight()
 winPosition = str(W)+'x'+str(H)+'+8+'+str(Y-H-100)
 self.geometry(winPosition)
 icoFile = 'favicon.ico'
 f = path.exists(icoFile)
 if f: win.iconbitmap(icoFile)
 self.resizable(False,False)
 self.wm_attributes('-topmost',True)
 self.title(bTitle[0])
 SetControl()
 self.update()
 self.mainloop()
def SetControl():
 global tList,tText
 tScroll = tk.Scrollbar(win, orient=tk.VERTICAL)
 tScroll.place(x=450,y=320,height=300)
 tList = tk.Listbox(win,selectmode=tk.BROWSE,yscrollcommand=tScroll.set)
 tScroll.config(command=tList.yview)
 for idx,item in enumerate(news):
  tList.insert(tk.END,f'{idx+1:03} {item[0]}')
 tList.place(x=15,y=320,width=435,height=300)
 tList.select_set(0)
 tList.focus()
 bW,bH = 70,35 #按鈕的寬高
 bX,bY = 95,270 #按鈕的坐標
 tBtn1 = tk.Button(win,text=bTitle[1],command=NewsList1)
 tBtn1.place(x=bX,y=bY,width=bW,height=bH)
 tBtn2=tk.Button(win,text=bTitle[2],command=NewsList2)
 tBtn2.place(x=bX+100,y=bY,width=bW,height=bH)
 tBtn3 = tk.Button(win,text=bTitle[3],command=NewsList3)
 tBtn3.place(x=bX+200,y=bY,width=bW,height=bH)
 tScroll2 = tk.Scrollbar(win, orient=tk.VERTICAL)
 tScroll2.place(x=450,y=10,height=240)
 tText = tk.Text(win,yscrollcommand=tScroll2.set)
 tScroll2.config(command=tText.yview)
 tText.place(x=15,y=10,width=435,height=240)
 tText.config(state=tk.DISABLED,bg='azure',font=('宋體', '14'))
 NewsShow(0)
 tList.bind("<Double-Button-1>",NewsShow)
if __name__=='__main__':
 win = tk.Tk()
 bTitle = ('今日新聞','國際新聞','國內(nèi)新聞','軍事新聞')
 news = SinaNews()
 InitWindow(win,480,640)
 

奉上全部代碼,在此就不作詳細分析了,如有需要請留言討論。我的使用環(huán)境 Win7+Python3.8.8 下可以無錯運行!文中涉及網(wǎng)站名稱已打上馬賽克,猜不出名字的可以私下里問我。

軟件編譯

使用pyinstaller.exe編譯成單個運行文件,注意源碼文件的后綴名應該用.pyw否則會有cmd黑窗口出現(xiàn)。還有一個小知識點,任意網(wǎng)站的Logo圖標icon文件,一般都能在根目錄里下載到,即:
http(s)://websiteurl.com(.cn)/favicon.ico

編譯命令如下:

D:\>pyinstaller --onefile --nowindowed --icon="D:\favicon.ico" News.pyw

編譯完成后,在dist文件夾下生成一個News.exe可執(zhí)行文件,大小約15M還能接受。

反正拿走就能直接用

以上就是Python小程序爬取今日新聞拿走就能用的詳細內(nèi)容,更多關于Python小程序的資料請關注本站其它相關文章!

版權聲明:本站文章來源標注為YINGSOO的內(nèi)容版權均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務器上建立鏡像,否則將依法追究法律責任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學習參考,不代表本站立場,如有內(nèi)容涉嫌侵權,請聯(lián)系alex-e#qq.com處理。

相關文章

實時開通

自選配置、實時開通

免備案

全球線路精選!

全天候客戶服務

7x24全年不間斷在線

專屬顧問服務

1對1客戶咨詢顧問

在線
客服

在線客服:7*24小時在線

客服
熱線

400-630-3752
7*24小時客服服務熱線

關注
微信

關注官方微信
頂部