国产AV一区二区三区导航,国产AⅤ无码专区亚洲AV麻豆,人人妻人人澡人人爽超污

人妖在线一区,国产日韩欧美一区二区综合在线,国产啪精品视频网站免费,欧美内射深插日本少妇

公司動(dòng)態(tài)

產(chǎn)品資訊

行業(yè)資訊

輕云服務(wù)器升級(jí)CN2線(xiàn)路有什么優(yōu)點(diǎn)

功能要求

這是我們老師的作業(yè) 代碼中都有注釋要求詞頻統(tǒng)計(jì)軟件：

1）從文本中讀入數(shù)據(jù)：（文件的輸入輸出）

2）不區(qū)分大小寫(xiě),去除特殊字符。

3）統(tǒng)計(jì)單詞例如：about ：10 并統(tǒng)計(jì)總共多少單詞

4）對(duì)單詞排序。出現(xiàn)次數(shù)

5）輸出詞頻最高的10個(gè)單詞和次數(shù)

6）把統(tǒng)計(jì)結(jié)果存入文本

方法如下

1.文件的讀取，區(qū)分大小寫(xiě)，去除特殊字符

import re
 
def getword():
  # 讀取文件
  f=open('read.txt','r',encoding='utf-8')
  # 將大寫(xiě)轉(zhuǎn)化成小寫(xiě)
  word=f.read().lower()
  # 關(guān)閉文件
  f.close()
  #利用正則除去特殊字符|\符+
  list=re.split('\s+|\,+|\.+|\!+|\:+|\?+|\;+|\(+|\)+|\-+|\_+|\=+|\++|\“+|\、+|\/+|\{+|\}+|\”+|\：+|\。+|\“+|\[+|\]+|\【+|\】+|\—+|\%+|\"+',word)
  # 遍歷列表 去除列表中的空格
  i = 0
  while i < len(list):
 if list[i] == '':
list.remove(list[i])
i -= 1
 i += 1
 
  # for a in list:
  #if a == "":
  #list.remove(a)
 #用for循環(huán)的話(huà)如果存在多個(gè)空字符串 其列表會(huì)隨時(shí)發(fā)生變化，導(dǎo)致無(wú)法正常刪除空字符串 所以在使用for…in循環(huán)遍歷列表時(shí)，最好不要對(duì)元素進(jìn)行增刪操作
 
#  對(duì)于others'優(yōu)化 如果最后一個(gè)字符是‘就將'其去掉
  for i in range(len(list)):
 l=list[i]
 if list[i][-1] == "'":
list[i] = list[i][:-1]
  return list

2.統(tǒng)計(jì)，排序

from getfilewords import getword
 
def statistics():
 dict={}  #定義一個(gè)空的字典，在后面的運(yùn)算中逐步添加數(shù)據(jù)
 words=getword()
 for word in words: #遍歷整個(gè)列表
  if word in dict.keys():  #判斷當(dāng)前單詞是否已經(jīng)存在 dict.keys()是已存進(jìn)字典中的單詞
# 補(bǔ)充：keys() 方法用于返回字典中的所有鍵；
# values() 方法用于返回字典中所有鍵對(duì)應(yīng)的值；
#詳情見(jiàn)Test1
dict[word]=dict[word]+1  #在當(dāng)前單詞的個(gè)數(shù)上加 1
  else:
dict[word]=1  #當(dāng)前單詞第一次出現(xiàn)時(shí) 會(huì)把單詞寫(xiě)入dict字典里 格式為 ‘單詞'=1
#排序
 w_order=sorted(dict.items(),key=lambda x:x[1],reverse=True)
# print(dict.items())
# dict.items()返回的是列表
# 按字典集合中，每一個(gè)元組的第二個(gè)元素排列。
# sorted會(huì)對(duì)dict.items()這個(gè)list進(jìn)行遍歷，把list中的每一個(gè)元素，也就是每一個(gè)tuple()當(dāng)做x傳入匿名函數(shù)lambda x：x[1],函數(shù)返回值為x[1]
# reverse屬性True為降序 False為升序
 return w_order #返回排序后的列表

3.結(jié)果寫(xiě)入文本

from WordStatistics import statistics
def writefile():
 w_order=statistics()
 f = open('result.txt', 'w',encoding='utf-8')
 print("文章單詞總個(gè)數(shù):",+len(getword()),file=f)
 print("文章單詞總個(gè)數(shù):", +len(getword()))
 
 # 寫(xiě)入文件
 print("詞頻最高的10個(gè)單詞和次數(shù)",file=f)
 print("詞頻最高的10個(gè)單詞和次數(shù)")
 
 w_order10=w_order[:10]#將列表的前十位提取并且遍歷 輸出key(單詞)和values(次數(shù))
 for key,values in w_order10:
  print(key,':',values,file=f)
  print(key, ':', values)
 
 #遍歷列表中的所有數(shù)據(jù)
 print("統(tǒng)計(jì)結(jié)果",file=f)
 for key,values in w_order:
  print(key,':',values,file=f)
 f.close()#關(guān)閉文件

4.程序入口

import os
 
from writefile import writefile
 
print("詞頻統(tǒng)計(jì)軟件")
print("正在統(tǒng)計(jì)中。。。")
print("統(tǒng)計(jì)成功，結(jié)果保存到result.txt")
writefile()
print("程序運(yùn)行結(jié)束")
os.system("pause")

5.運(yùn)行截圖這是需要統(tǒng)計(jì)的文本

運(yùn)行程序

運(yùn)行結(jié)果

總結(jié)

到此這篇關(guān)于如何利用python實(shí)現(xiàn)詞頻統(tǒng)計(jì)功能的文章就介紹到這了,更多相關(guān)python實(shí)現(xiàn)詞頻統(tǒng)計(jì)內(nèi)容請(qǐng)搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站！

版權(quán)聲明：本站文章來(lái)源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有，歡迎引用、轉(zhuǎn)載，請(qǐng)保持原文完整并注明來(lái)源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站，禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像，否則將依法追究法律責(zé)任。本站部分內(nèi)容來(lái)源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來(lái)，僅供學(xué)習(xí)參考，不代表本站立場(chǎng)，如有內(nèi)容涉嫌侵權(quán)，請(qǐng)聯(lián)系alex-e#qq.com處理。

排名優(yōu)化：網(wǎng)站排名優(yōu)化方法有什么，如何做有效果

老域名：怎樣才算老域名，老域名建站有什么影響

內(nèi)容優(yōu)化：關(guān)鍵字排名要做哪些方面的優(yōu)化，怎樣做

技巧：網(wǎng)站轉(zhuǎn)化率究竟是什么，有什么提升的技巧

一下吧：外貿(mào)站優(yōu)化有哪些基本的做法和注意事項(xiàng)

概要：競(jìng)價(jià)推廣費(fèi)用大概要多少呢，競(jìng)價(jià)推廣好不好

一下吧：SEO中site是什么意思，作用和應(yīng)用是怎樣的

郵箱：付費(fèi)郵箱有哪些優(yōu)勢(shì)，付費(fèi)郵箱挑選要考慮什么

集群是什么意思：集群是什么意思，都有哪些優(yōu)勢(shì)呢