初學(xué)python數(shù)學(xué)建模之?dāng)?shù)據(jù)導(dǎo)入(小白篇)
1. 數(shù)據(jù)導(dǎo)入是所有數(shù)模編程的第一步
編程求解一個(gè)數(shù)模問(wèn)題,問(wèn)題總會(huì)涉及一些數(shù)據(jù)。
有些數(shù)據(jù)是在題目的文字描述中給出的,有些數(shù)據(jù)是通過(guò)題目的附件文件下載或指定網(wǎng)址提供的,還有些數(shù)據(jù)是需要自己搜集的。不論是哪種方式獲得的數(shù)據(jù),也不論哪種類型的問(wèn)題和算法,首先都是要把這些數(shù)據(jù)以適當(dāng)?shù)姆绞胶透袷綄?dǎo)入到程序中。
- 如果數(shù)據(jù)格式有問(wèn)題
輕則讀取數(shù)據(jù)時(shí)發(fā)生錯(cuò)誤,要浪費(fèi)時(shí)間去查找和解決,在數(shù)模競(jìng)賽中就會(huì)讓人非常焦躁。
數(shù)據(jù)錯(cuò)誤還是輕的嗎?對(duì),重則讀取數(shù)據(jù)有錯(cuò)誤,程序卻在繼續(xù)運(yùn)行,得到了錯(cuò)誤的結(jié)果,這在數(shù)模競(jìng)賽中就更糟糕了。
你可能都不知道發(fā)生了錯(cuò)誤,就算感覺(jué)有問(wèn)題也不會(huì)把錯(cuò)誤直接鎖定到數(shù)據(jù)導(dǎo)入部分。
結(jié)果不停地去修改其它模塊,直到把正確的模塊也搞錯(cuò)了,最后無(wú)可救藥。
因此,確保數(shù)模編程第一步“數(shù)據(jù)導(dǎo)入”的順利完成,遠(yuǎn)遠(yuǎn)比你想象的更重要。
- Python 語(yǔ)言中數(shù)據(jù)導(dǎo)入的方法很多
對(duì)于數(shù)學(xué)建模問(wèn)題編程來(lái)說(shuō),選擇什么方法最好呢?答案是:沒(méi)有最好的,只有最合適的。
對(duì)于不同的問(wèn)題,不同的算法,以及所調(diào)用工具包的不同實(shí)現(xiàn)方法,對(duì)于數(shù)據(jù)就會(huì)有不同的要求。
另外,賽題所給數(shù)據(jù)文件中的數(shù)據(jù)組織方式不同,也需要使用不同的方法來(lái)導(dǎo)入數(shù)據(jù)。
那么好了,既然是要具體問(wèn)題具體分析,這不跟沒(méi)說(shuō)一樣嗎?這正是本文希望回答的問(wèn)題,雖然針對(duì)不同問(wèn)題的最佳的數(shù)據(jù)導(dǎo)入方法也不同,但我們先要學(xué)會(huì)一種未必最佳,但是通用、安全、簡(jiǎn)單、好學(xué)的方法。
2. 在程序中直接向變量賦值
直接在程序中向變量賦值,是雖然笨拙但最簡(jiǎn)單的方法,也許還是最可靠的方法——如果你沒(méi)有敲錯(cuò)鍵盤(pán)的話。
確實(shí),把直接賦值作為數(shù)據(jù)導(dǎo)入方法來(lái)介紹,實(shí)在是不好意思說(shuō)出口。
但是,對(duì)于數(shù)模競(jìng)賽這種特殊的需求,直接賦值的方法還是十分常用的,而且完全符合簡(jiǎn)單、實(shí)用、可靠的要求。
不過(guò),直接賦值也并非我們想的那么簡(jiǎn)單,還是值得認(rèn)真地談一談。
2.1 為什么直接賦值?
絕大部分?jǐn)?shù)學(xué)建模教材中的例程,都是使用直接賦值的方法導(dǎo)入數(shù)據(jù)。
很大比例的博客例程,包括本系列的大多數(shù)案例,也都是在程序中直接賦值的。
- 其原因在于
一是為了保證程序的完整性,復(fù)制粘貼回車就能得到運(yùn)行結(jié)果,不需要復(fù)制數(shù)據(jù)文件等操作,就避免了由此引起的各種錯(cuò)誤;
二是為了把讀者的注意力聚焦在主要的知識(shí)點(diǎn),避免干擾;
三是使例程更加直觀易懂,便于理解例程的算法。
這些原因也都是直接賦值的優(yōu)點(diǎn)。那么,這些優(yōu)點(diǎn)不也正是數(shù)模競(jìng)賽編程活動(dòng)的痛點(diǎn)嗎?
沒(méi)錯(cuò),這就是直接賦值方法在數(shù)學(xué)建模培訓(xùn)和數(shù)模競(jìng)賽編程的實(shí)踐中廣泛流行的原因。
2.2 直接賦值的問(wèn)題與注意事項(xiàng)
但是,即使在數(shù)模競(jìng)賽編程中,直接賦值也會(huì)有幾個(gè)問(wèn)題。
- 一是某些問(wèn)題不能使用直接賦值方法。這主要是大數(shù)據(jù)的問(wèn)題,數(shù)據(jù)量或數(shù)據(jù)文件的數(shù)量極大,已經(jīng)不能使用直接賦值實(shí)現(xiàn)了。
- 二是一些問(wèn)題雖然可以直接賦值,但很容易出錯(cuò)。這主要是數(shù)據(jù)量很大,或者數(shù)據(jù)結(jié)構(gòu)、類型比較復(fù)雜的問(wèn)題。例如,多元分析、時(shí)間序列、數(shù)據(jù)統(tǒng)計(jì)類的題目可能都有很大的數(shù)據(jù)量,在附件中提供數(shù)據(jù)文件。
這時(shí)如果在使用直接賦值導(dǎo)入數(shù)據(jù),不再是敲鍵盤(pán)了,而是從文件中把數(shù)據(jù)復(fù)制粘貼到程序中。這時(shí)要特別注意的問(wèn)題是:文件中的數(shù)據(jù)分隔符是什么,空格還是逗號(hào),與變量賦值的格式要求是否一致?
即使文件中的數(shù)據(jù)分隔符看上去是空格,也需要檢查到底是空格還是制表符,是一個(gè)空格還是幾個(gè)空格?
文件中的數(shù)據(jù)有沒(méi)有錯(cuò)漏等異常?
這在讀取文件中可以通過(guò)程序檢查、識(shí)別和處理,在復(fù)制粘貼時(shí)就要人工處理了。 - 三是數(shù)據(jù)量不大的問(wèn)題,完全可以用直接賦值導(dǎo)入數(shù)據(jù),但也會(huì)由于疏忽大意而出錯(cuò)。這倒不是說(shuō)敲錯(cuò)鍵盤(pán)了,而是由于例程不一定是把數(shù)據(jù)賦值作為獨(dú)立模塊處理的,而是分散在算法的過(guò)程中進(jìn)行賦值。
同學(xué)在使用和修改例程時(shí)時(shí),就很容易忘記修改算法過(guò)程中的變量賦值。
這種情況屢見(jiàn)不鮮,有時(shí)是因?yàn)閷?duì)程序沒(méi)有搞明白,忽略了算法步驟中的某個(gè)變量;
更多時(shí)候是忙中出錯(cuò),在反復(fù)調(diào)試和更換數(shù)據(jù)時(shí)暈頭轉(zhuǎn)向,只顧了修改開(kāi)始的數(shù)據(jù)而疏忽了后面的數(shù)據(jù)。
養(yǎng)成數(shù)據(jù)導(dǎo)入模塊化的習(xí)慣,才能避免這一類的疏忽:
- 將數(shù)據(jù)導(dǎo)入模塊作為單獨(dú)的函數(shù)。
- 如果不愿意使用數(shù)據(jù)導(dǎo)入函數(shù),則要把數(shù)據(jù)導(dǎo)入部分集中寫(xiě)成一段,放在程序的起始部分。
- 不要把問(wèn)題本身的數(shù)據(jù)導(dǎo)入與算法所需的參數(shù)賦值混淆,分為兩個(gè)獨(dú)立的函數(shù)或段落。
例程 1:將數(shù)據(jù)導(dǎo)入作為單獨(dú)的函數(shù)
# 子程序:定義優(yōu)化問(wèn)題的目標(biāo)函數(shù) def cal_Energy(X, nVar, mk): # m(k):懲罰因子 p1 = (max(0, 6*X[0]+5*X[1]-320))**2 p2 = (max(0, 10*X[0]+20*X[1]-7027)**2 fx = -(10*X[0]+9*X[1]) return fx+mk*(p1+p2) # 子程序:模擬退火算法的參數(shù)設(shè)置 def ParameterSetting(): tInitial = 100.0# 設(shè)定初始退火溫度(initial temperature) tFinal = 1 # 設(shè)定終止退火溫度(stop temperature) alfa = 0.98 # 設(shè)定降溫參數(shù),T(k)=alfa*T(k-1) nMarkov = 100 # Markov鏈長(zhǎng)度,也即內(nèi)循環(huán)運(yùn)行次數(shù) youcans = 0.5# 定義搜索步長(zhǎng),可以設(shè)為固定值或逐漸縮小 return tInitial, tFinal, alfa, nMarkov, youcans
例程 2:將數(shù)據(jù)導(dǎo)入集中寫(xiě)成一段,放在程序的起始部分
# 主程序 def main(): # 模型數(shù)據(jù)導(dǎo)入 p1 = [6, 5, -320] p2 = [10, 20, -7027] p3 = [10, 9] print(p1,p2,p3) # 算法參數(shù)設(shè)置 tInitial = 100.0# 設(shè)定初始退火溫度(initial temperature) tFinal = 1 # 設(shè)定終止退火溫度(stop temperature) alfa = 0.98 # 設(shè)定降溫參數(shù),T(k)=alfa*T(k-1) nMarkov = 100 # Markov鏈長(zhǎng)度,也即內(nèi)循環(huán)運(yùn)行次數(shù) youcans = 0.5# 定義搜索步長(zhǎng),可以設(shè)為固定值或逐漸縮小 print(tInitial, tFinal, alfa, nMarkov, youcans)
3. Pandas 導(dǎo)入數(shù)據(jù)
雖然很多數(shù)模競(jìng)賽的問(wèn)題可以通過(guò)直接賦值獲取數(shù)據(jù),但主流的數(shù)據(jù)導(dǎo)入方法還是讀取數(shù)據(jù)文件。
- 數(shù)學(xué)建模中常用的數(shù)據(jù)文件格式有文本文件(.txt)、Excel 文件(.xls, .xlsx)和 csv 文件(.csv)。
- 在讀取文本文件時(shí),會(huì)遇到逗號(hào)、空格、制表符等不同的數(shù)據(jù)分割符。
- 讀取 Excel 文件時(shí),首先 .xls 與 .xlsx 的格式不同,其次要考慮數(shù)據(jù)表帶不帶標(biāo)題行,有時(shí)文件中還有多個(gè)工作表。
- 讀取文件時(shí)還會(huì)遇到數(shù)據(jù)缺失,非法字符。
對(duì)于小白來(lái)說(shuō),特別在競(jìng)賽時(shí),處理這些問(wèn)題時(shí)都會(huì)心神不寧。
Python 中讀取數(shù)據(jù)文件的方法也很多。本文非常不推薦使用 Python 自身的文件操作如打開(kāi)(open)、關(guān)閉(close)、讀寫(xiě)(read、readline)函數(shù),而是推薦使用 Pandas 讀取數(shù)據(jù)文件。
原因在于:
- Pandas 提供了多種常用文件格式的讀寫(xiě)函數(shù),以上各種情況都能一行代碼搞定。
- Pandas 是基于 NumPy 構(gòu)建的數(shù)據(jù)分析工具包,便于進(jìn)行數(shù)據(jù)整理與清洗,操作方便靈活。
- Pandas 提供了與其它各種數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)換工具,使用簡(jiǎn)單靈活。
- 很多數(shù)學(xué)建模算法的例程就是使用 Pandas 的 Series、DataFrame 數(shù)據(jù)結(jié)構(gòu),無(wú)需進(jìn)行轉(zhuǎn)換。
3.1 Pandas 讀取 Excel 文件
Pandas 使用 read_excel() 函數(shù)讀取 Excel文件。
pd.read_excel(io, sheetname=0,header=0,index_col=None,names=None)
pd.read_excel() 的主要參數(shù):
- io : 文件路徑(包括文件名)。
- header :指定作為列名的行。默認(rèn)為 0,即首行為標(biāo)題行。設(shè)置 header=None,表示無(wú)標(biāo)題行,首行就是數(shù)據(jù)行。
- sheetname:指定工作表。默認(rèn)為 sheetname=0。設(shè)置 sheetname=None 返回全表, 設(shè)置 sheetname=[0,1] 返回多表 。
- index_col :指定作為行索引的列編號(hào)或列名。
- names:指定列名, 類型為 list。
pd.read_excel() 使用實(shí)例:
# sheetname 表示讀取指定的工作表,header=0 表示首行為標(biāo)題行,header=None 表示首行為數(shù)據(jù)行 df = pd.read_excel("data/youcans1.xls", sheetname='Sheet1', header=0)
3.2 Pandas 讀取 csv 文件
Pandas 使用 pandas.read_csv() 函數(shù)讀取 Excel文件。
pd.read_csv( filepath ,sep=',', header=‘infer', names=None, index_col=None)
pd.read_csv() 的主要參數(shù):
- filepath : 文件路徑(包括文件名)。
- sep:指定分隔符。默認(rèn)為逗號(hào) ‘,',可根據(jù)需要設(shè)置其它分隔符。
- header :指定作為列名的行。**如果文件沒(méi)有列名則默認(rèn)為 0,表示首行就是數(shù)據(jù)行;設(shè)置 header=None,表示無(wú)標(biāo)題行,首行就是數(shù)據(jù)行。
- index_col :指定作為行索引的列編號(hào)或列名。
- names:指定列名, 類型為 list。
pd.read_csv() 使用實(shí)例:
# sep=','表示間隔符為逗號(hào),header=0表示首行為標(biāo)題行,header=None 表示首行為數(shù)據(jù)行 df = pd.read_csv("data/youcans2.csv", header=0, sep=',')
3.3 Pandas 讀取文本文件
對(duì)于文本文件 .txt 和 .dat,可以使用 pandas.read_table() 函數(shù)讀取 。
pd.read_table( filepath ,sep='\t', header=‘infer', names=None, index_col=None)
pd.read_table() 的主要參數(shù):
- filepath : 文件路徑(包括文件名)。
- sep:指定分隔符。默認(rèn)為 tab 制表符,可根據(jù)需要設(shè)置其它分隔符。
- header :指定作為列名的行。**如果文件沒(méi)有列名則默認(rèn)為 0,表示首行就是數(shù)據(jù)行;設(shè)置 header=None,表示無(wú)標(biāo)題行,首行就是數(shù)據(jù)行。
- index_col :指定作為行索引的列編號(hào)或列名。
- names:指定列名, 類型為 list
pd.read_table() 使用實(shí)例:
# sep='\t'表示分隔符為制表符,header=None 表示無(wú)標(biāo)題行,第一行是數(shù)據(jù) df = pd.read_table("data/youcans3.dat", sep="\t", header=None)
3.4 Pandas 讀取其它文件格式
Pandas 還提供了讀取多種文件格式的函數(shù)
使用方法也都類似,都是一行代碼搞定。例如:
- pandas.read_sql,讀取 SQL 數(shù)據(jù)庫(kù)
- pandas.read_html,抓取網(wǎng)頁(yè)中的表格數(shù)據(jù)
- pandas.read_json,讀取 JSON 數(shù)據(jù)文件
- pandas.read_clipboard,讀取剪貼板內(nèi)容
由于這些文件格式中數(shù)模競(jìng)賽中很少用到,本文就不進(jìn)行詳細(xì)介紹了。有需要的同學(xué)可以根據(jù)函數(shù)名通過(guò)搜索引擎搜索參考資料,也可以查閱官方文檔:
- Pandas 輸入輸出函數(shù)的說(shuō)明文檔pandas.pydata.org/pandas-docs/stable/reference/io.html
- https://pandas.pydata.org/pandas-docs/stable/reference/io.html
此外,對(duì)于大數(shù)據(jù)類的問(wèn)題,所需處理的數(shù)據(jù)量可能非常大,必要時(shí)需對(duì)文件進(jìn)行拆分或合并,也可以用 pandas 進(jìn)行處理,這將在后續(xù)文章結(jié)合具體問(wèn)題進(jìn)行講解。
4. 數(shù)據(jù)導(dǎo)入例程
【重要說(shuō)明】以上章節(jié)的內(nèi)容雖然介紹了數(shù)據(jù)導(dǎo)入的基本方法,但恐怕還是難以達(dá)到消化吸收,為我所用。
為了解決這個(gè)問(wèn)題,本文將相關(guān)內(nèi)容整合為例程,以便于讀者學(xué)習(xí)收藏,也便于使用修改。
例程01:讀取數(shù)據(jù)文件
# mathmodel01_v1.py # Demo01 of mathematical modeling algorithm # Read data files into DataFrame. # Copyright 2021 Youcans, XUPT # Crated:2021-05-27 import pandas as pd # 讀取數(shù)據(jù)文件 def readDataFile(readPath): # readPath: 數(shù)據(jù)文件的地址和文件名 # readPath = "../data/youcansxupt.csv" # 文件路徑也可以直接在此輸入 try: if (readPath[-4:] == ".csv"): dfFile = pd.read_csv(readPath, header=0, sep=",") # 間隔符為逗號(hào),首行為標(biāo)題行 # dfFile = pd.read_csv(filePath, header=None, sep=",") # sep: 間隔符,無(wú)標(biāo)題行 elif (readPath[-4:] == ".xls") or (readPath[-5:] == ".xlsx"): # sheet_name 默認(rèn)為 0 dfFile = pd.read_excel(readPath, header=0) # 首行為標(biāo)題行 # dfFile = pd.read_excel(filePath, header=None) # 無(wú)標(biāo)題行 elif (readPath[-4:] == ".dat"): # sep: 間隔符,header:首行是否為標(biāo)題行 dfFile = pd.read_table(readPath, sep=" ", header=0) # 間隔符為空格,首行為標(biāo)題行 # dfFile = pd.read_table(filePath,sep=",",header=None) # 間隔符為逗號(hào),無(wú)標(biāo)題行 else: print("不支持的文件格式。") except Exception as e: print("讀取數(shù)據(jù)文件失?。簕}".format(str(e))) return return dfFile # 主程序 def main(): # 讀取數(shù)據(jù)文件 # Youcans, XUPT readPath = "../data/toothpaste.csv" # 數(shù)據(jù)文件的地址和文件名 dfFile = readDataFile(readPath) # 調(diào)用讀取文件子程序 print(type(dfFile)) # 查看 dfFile 數(shù)據(jù)類型 print(dfFile.shape) # 查看 dfFile 形狀(行數(shù),列數(shù)) print(dfFile.head()) # 顯示 dfFile 前 5 行數(shù)據(jù) return if __name__ == '__main__': # Youcans, XUPT main()
例程01 運(yùn)行結(jié)果:
<class 'pandas.core.frame.DataFrame'>
(30, 6)
period price average advertise difference sales
01 3.85 3.805.50-0.05 7.38
12 3.75 4.006.75 0.25 8.51
23 3.70 4.307.25 0.60 9.52
34 3.70 3.705.50 0.00 7.50
45 3.60 3.857.00 0.25 9.33
1.本例程需要讀取數(shù)據(jù)文件 “…/data/toothpaste.csv”,該文件保存在 …/data/ 目錄下。讀者需要修改該數(shù)據(jù)文件的文件路徑和文件名,以便讀取自己需要的本地文件。
2.本例程可以根據(jù)文件名的后綴自動(dòng)識(shí)別文件類型,調(diào)用相應(yīng)的函數(shù)讀取文件。
3.本例程中讀取文件模塊使用 try…except 語(yǔ)句進(jìn)行簡(jiǎn)單的異常處理。如果讀取失敗,可以根據(jù)拋出的異常類型查找錯(cuò)誤。
到此這篇關(guān)于初學(xué)python數(shù)學(xué)建模之?dāng)?shù)據(jù)導(dǎo)入(小白篇)的文章就介紹到這了,更多相關(guān)python數(shù)學(xué)建模數(shù)據(jù)導(dǎo)入內(nèi)容請(qǐng)搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站!
版權(quán)聲明:本站文章來(lái)源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請(qǐng)保持原文完整并注明來(lái)源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來(lái)源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來(lái),僅供學(xué)習(xí)參考,不代表本站立場(chǎng),如有內(nèi)容涉嫌侵權(quán),請(qǐng)聯(lián)系alex-e#qq.com處理。