如何利用python實(shí)現(xiàn)詞頻統(tǒng)計(jì)功能
功能要求
這是我們老師的作業(yè) 代碼中都有注釋 要求 詞頻統(tǒng)計(jì)軟件:
1)從文本中讀入數(shù)據(jù):(文件的輸入輸出)
2)不區(qū)分大小寫(xiě),去除特殊字符。
3)統(tǒng)計(jì)單詞 例如:about :10 并統(tǒng)計(jì)總共多少單詞
4)對(duì)單詞排序。出現(xiàn)次數(shù)
5)輸出詞頻最高的10個(gè)單詞和次數(shù)
6)把統(tǒng)計(jì)結(jié)果存入文本
方法如下
1.文件的讀取,區(qū)分大小寫(xiě),去除特殊字符
import re def getword(): # 讀取文件 f=open('read.txt','r',encoding='utf-8') # 將大寫(xiě)轉(zhuǎn)化成小寫(xiě) word=f.read().lower() # 關(guān)閉文件 f.close() #利用正則除去特殊字符|\符+ list=re.split('\s+|\,+|\.+|\!+|\:+|\?+|\;+|\(+|\)+|\-+|\_+|\=+|\++|\“+|\、+|\/+|\{+|\}+|\”+|\:+|\。+|\“+|\[+|\]+|\【+|\】+|\—+|\%+|\"+',word) # 遍歷列表 去除列表中的空格 i = 0 while i < len(list): if list[i] == '': list.remove(list[i]) i -= 1 i += 1 # for a in list: #if a == "": #list.remove(a) #用for循環(huán)的話(huà)如果存在多個(gè)空字符串 其列表會(huì)隨時(shí)發(fā)生變化,導(dǎo)致無(wú)法正常刪除空字符串 所以在使用for…in循環(huán)遍歷列表時(shí),最好不要對(duì)元素進(jìn)行增刪操作 # 對(duì)于others'優(yōu)化 如果最后一個(gè)字符是‘就將'其去掉 for i in range(len(list)): l=list[i] if list[i][-1] == "'": list[i] = list[i][:-1] return list
2.統(tǒng)計(jì),排序
from getfilewords import getword def statistics(): dict={} #定義一個(gè)空的字典,在后面的運(yùn)算中逐步添加數(shù)據(jù) words=getword() for word in words: #遍歷整個(gè)列表 if word in dict.keys(): #判斷當(dāng)前單詞是否已經(jīng)存在 dict.keys()是已存進(jìn)字典中的單詞 # 補(bǔ)充:keys() 方法用于返回字典中的所有鍵; # values() 方法用于返回字典中所有鍵對(duì)應(yīng)的值; #詳情見(jiàn)Test1 dict[word]=dict[word]+1 #在當(dāng)前單詞的個(gè)數(shù)上加 1 else: dict[word]=1 #當(dāng)前單詞第一次出現(xiàn)時(shí) 會(huì)把單詞寫(xiě)入dict字典里 格式為 ‘單詞'=1 #排序 w_order=sorted(dict.items(),key=lambda x:x[1],reverse=True) # print(dict.items()) # dict.items()返回的是列表 # 按字典集合中,每一個(gè)元組的第二個(gè)元素排列。 # sorted會(huì)對(duì)dict.items()這個(gè)list進(jìn)行遍歷,把list中的每一個(gè)元素,也就是每一個(gè)tuple()當(dāng)做x傳入匿名函數(shù)lambda x:x[1],函數(shù)返回值為x[1] # reverse屬性True為降序 False為升序 return w_order #返回排序后的列表
3.結(jié)果寫(xiě)入文本
from WordStatistics import statistics def writefile(): w_order=statistics() f = open('result.txt', 'w',encoding='utf-8') print("文章單詞總個(gè)數(shù):",+len(getword()),file=f) print("文章單詞總個(gè)數(shù):", +len(getword())) # 寫(xiě)入文件 print("詞頻最高的10個(gè)單詞和次數(shù)",file=f) print("詞頻最高的10個(gè)單詞和次數(shù)") w_order10=w_order[:10]#將列表的前十位提取并且遍歷 輸出key(單詞)和values(次數(shù)) for key,values in w_order10: print(key,':',values,file=f) print(key, ':', values) #遍歷列表中的所有數(shù)據(jù) print("統(tǒng)計(jì)結(jié)果",file=f) for key,values in w_order: print(key,':',values,file=f) f.close()#關(guān)閉文件
4.程序入口
import os from writefile import writefile print("詞頻統(tǒng)計(jì)軟件") print("正在統(tǒng)計(jì)中。。。") print("統(tǒng)計(jì)成功,結(jié)果保存到result.txt") writefile() print("程序運(yùn)行結(jié)束") os.system("pause")
5.運(yùn)行截圖 這是需要統(tǒng)計(jì)的文本
運(yùn)行程序
運(yùn)行結(jié)果
總結(jié)
到此這篇關(guān)于如何利用python實(shí)現(xiàn)詞頻統(tǒng)計(jì)功能的文章就介紹到這了,更多相關(guān)python實(shí)現(xiàn)詞頻統(tǒng)計(jì)內(nèi)容請(qǐng)搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站!
版權(quán)聲明:本站文章來(lái)源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請(qǐng)保持原文完整并注明來(lái)源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來(lái)源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來(lái),僅供學(xué)習(xí)參考,不代表本站立場(chǎng),如有內(nèi)容涉嫌侵權(quán),請(qǐng)聯(lián)系alex-e#qq.com處理。