Python?jiaba庫(kù)的使用詳解
jiaba庫(kù)的使用
jieba
庫(kù)是一款優(yōu)秀的 Python 第三方中文分詞庫(kù),jieba
支持三種分詞模式:精確模式、全模式和搜索引擎模式,下面是三種模式的特點(diǎn)。
精確模式:試圖將語(yǔ)句最精確的切分,不存在冗余數(shù)據(jù),適合做文本分析
全模式:將語(yǔ)句中所有可能是詞的詞語(yǔ)都切分出來(lái),速度很快,但是存在冗余數(shù)據(jù)
搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次進(jìn)行切分
1、jieba庫(kù)的安裝
全自動(dòng)安裝:easy_install jieba 或者 pip install jieba / pip3 install jieba
- 半自動(dòng)安裝:先下載 http://pypi.python.org/pypi/jieba/ ,解壓后運(yùn)行
python setup.py install
- 手動(dòng)安裝:將 jieba 目錄放置于當(dāng)前目錄或者 site-packages 目錄
- 通過(guò) import jieba 來(lái)引用
如下:全自動(dòng)安裝
Win+R ==>cmd
pip install jieba
安裝時(shí)可能會(huì)出現(xiàn)pip版本錯(cuò)誤
進(jìn)入pip目錄,更新即可
進(jìn)入pip目錄,更新即可
python.exe -m pip install --upgrade pip
在 pyCharm
中安裝:
打開(kāi) settings,搜索 Project Interpreter,在右邊的窗口選擇 + 號(hào),點(diǎn)擊后在搜索框搜索
jieba,點(diǎn)擊安裝即可
2、統(tǒng)計(jì)荷塘月色詞頻
荷塘月色.txt
這幾天心里頗不寧?kù)o。今晚在院子里坐著乘涼,忽然想起日日走過(guò)的荷塘,在這滿(mǎn)月的光里,總該另有一番樣子吧。月亮漸漸地升高了,墻外馬路上孩子們的歡笑,已經(jīng)聽(tīng)不見(jiàn)了;妻在屋里拍著閏兒,迷迷糊糊地哼著眠歌。我悄悄地披了大衫,帶上門(mén)出去。 沿著荷塘,是一條曲折的小煤屑路。這是一條幽僻的路;白天也少人走,夜晚更加寂寞。荷塘四周,長(zhǎng)著許多樹(shù),蓊蓊(wěng)郁郁的。路的一旁,是些楊柳,和一些不知道名字的樹(shù)。沒(méi)有月光的晚上,這路上陰森森的,有些怕人。今晚卻很好,雖然月光也還是淡淡的。 路上只我一個(gè)人,背著手踱(duó)著。這一片天地好像是我的;我也像超出了平常的自己,到了另一個(gè)世界里。我愛(ài)熱鬧,也愛(ài)冷靜;愛(ài)群居,也愛(ài)獨(dú)處。像今晚上,一個(gè)人在這蒼茫的月下,什么都可以想,什么都可以不想,便覺(jué)是個(gè)自由的人。白天里一定要做的事,一定要說(shuō)的話,現(xiàn)在都可不理。這是獨(dú)處的妙處,我且受用這無(wú)邊的荷香月色好了。 曲曲折折的荷塘上面,彌望的是田田的葉子。葉子出水很高,像亭亭的舞女的裙。層層的葉子中間,零星地點(diǎn)綴著些白花,有裊娜(niǎo,nuó)地開(kāi)著的,有羞澀地打著朵兒的;正如一粒粒的明珠,又如碧天里的星星,又如剛出浴的美人。微風(fēng)過(guò)處,送來(lái)縷縷清香,仿佛遠(yuǎn)處高樓上渺茫的歌聲似的。這時(shí)候葉子與花也有一絲的顫動(dòng),像閃電般,霎時(shí)傳過(guò)荷塘的那邊去了。葉子本是肩并肩密密地挨著,這便宛然有了一道凝碧的波痕。葉子底下是脈脈(mò)的流水,遮住了,不能見(jiàn)一些顏色;而葉子卻更見(jiàn)風(fēng)致了。 月光如流水一般,靜靜地瀉在這一片葉子和花上。薄薄的青霧浮起在荷塘里。葉子和花仿佛在牛乳中洗過(guò)一樣;又像籠著輕紗的夢(mèng)。雖然是滿(mǎn)月,天上卻有一層淡淡的云,所以不能朗照;但我以為這恰是到了好處——酣眠固不可少,小睡也別有風(fēng)味的。月光是隔了樹(shù)照過(guò)來(lái)的,高處叢生的灌木,落下參差的斑駁的黑影,峭楞楞如鬼一般;彎彎的楊柳的稀疏的倩影,卻又像是畫(huà)在荷葉上。塘中的月色并不均勻;但光與影有著和諧的旋律,如梵婀(ē)玲(英語(yǔ)violin小提琴的譯音)上奏著的名曲。 荷塘的四面,遠(yuǎn)遠(yuǎn)近近,高高低低都是樹(shù),而楊柳最多。這些樹(shù)將一片荷塘重重圍??;只在小路一旁,漏著幾段空隙,像是特為月光留下的。樹(shù)色一例是陰陰的,乍看像一團(tuán)煙霧;但楊柳的豐姿,便在煙霧里也辨得出。樹(shù)梢上隱隱約約的是一帶遠(yuǎn)山,只有些大意罷了。樹(shù)縫里也漏著一兩點(diǎn)路燈光,沒(méi)精打采的,是渴睡人的眼。這時(shí)候最熱鬧的,要數(shù)樹(shù)上的蟬聲與水里的蛙聲;但熱鬧是他們的,我什么也沒(méi)有。 忽然想起采蓮的事情來(lái)了。采蓮是江南的舊俗,似乎很早就有,而六朝時(shí)為盛;從詩(shī)歌里可以約略知道。采蓮的是少年的女子,她們是蕩著小船,唱著艷歌去的。采蓮人不用說(shuō)很多,還有看采蓮的人。那是一個(gè)熱鬧的季節(jié),也是一個(gè)風(fēng)流的季節(jié)。梁元帝《采蓮賦》里說(shuō)得好: 于是妖童媛(yuàn)女,蕩舟心許;鷁(yì)首徐回,兼?zhèn)饔鸨粰?zhào)將移而藻掛,船欲動(dòng)而萍開(kāi)。爾其纖腰束素,遷延顧步;夏始春余,葉嫩花初,恐沾裳而淺笑,畏傾船而斂裾(jū)。 可見(jiàn)當(dāng)時(shí)嬉游的光景了。這真是有趣的事,可惜我們現(xiàn)在早已無(wú)福消受了。 于是又記起,《西州曲》里的句子: 采蓮南塘秋,蓮花過(guò)人頭;低頭弄蓮子,蓮子清如水。 今晚若有采蓮人,這兒的蓮花也算得“過(guò)人頭”了;只不見(jiàn)一些流水的影子,是不行的。這令我到底惦著江南了?!@樣想著,猛一抬頭,不覺(jué)已是自己的門(mén)前;輕輕地推門(mén)進(jìn)去,什么聲息也沒(méi)有了,妻已睡熟好久了。
中文虛詞.txt
從、自從、自、打、到、往、在、由、向、于、至、趁、當(dāng)、當(dāng)著、沿著、順著 按、按照、遵照、依照、靠、本著、用、通過(guò)、根據(jù)、據(jù)、拿、比 因、因?yàn)?、由于、為、為了、為?被、給、讓、叫、歸、由、把、將、管 對(duì)、對(duì)于、關(guān)于、跟、和、給、替、向、同、除了 同、和、跟、與、及、或、以及 而、而且、并、并且、或者 不但、不僅、雖然、但是、然而、如果、與其、因?yàn)?、所?的、得、地 著、了、過(guò) 也、這、里 似的、一樣、一般 給、連、們、所 的、了、吧、呢、啊、著、嘛、唄、罷了、而已、也罷、也好、啦、嘞、嘍、著呢 嗎、么、呢、啊、吧 ,。;()
代碼
```python import jieba # 讀取文件內(nèi)容 def read_content(): f = open("荷塘月色.txt", encoding='utf-8')#讀取時(shí)要設(shè)置文件編碼格式 content = f.read() f.close() return content # 打印信息 def print_info(values=[]): for item in values: print(item) # 主函數(shù) if __name__ == '__main__': # print_info(read_content()) content = read_content() article = jieba.lcut(content) # 分割字符為詞list dic = {} for word in article: if word not in dic: dic[word] = 1 else: dic[word] += 1 swd = sorted(list(dic.items()), key=lambda lst: lst[1], reverse=True) # 統(tǒng)計(jì)每個(gè)詞出現(xiàn)次數(shù),從高到第排序 f1 = open('中文虛詞.txt', encoding="utf-8") # 排除那些虛詞,連詞,標(biāo)點(diǎn)符號(hào)等 stop_wds = f1.read() f1.close() for kword, times in swd: if kword not in stop_wds: # 當(dāng)前詞未包含在排除的那些詞里面,就輸出現(xiàn)次數(shù) print(kword, times)
運(yùn)行結(jié)果:
總結(jié)
本篇文章就到這里了,希望能夠給你帶來(lái)幫助,也希望您能夠多多關(guān)注本站的更多內(nèi)容!
版權(quán)聲明:本站文章來(lái)源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請(qǐng)保持原文完整并注明來(lái)源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來(lái)源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來(lái),僅供學(xué)習(xí)參考,不代表本站立場(chǎng),如有內(nèi)容涉嫌侵權(quán),請(qǐng)聯(lián)系alex-e#qq.com處理。