千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構(gòu)

手機站
千鋒教育

千鋒學(xué)習(xí)站 | 隨時隨地免費學(xué)

千鋒教育

掃一掃進入千鋒手機站

領(lǐng)取全套視頻
千鋒教育

關(guān)注千鋒學(xué)習(xí)站小程序
隨時隨地免費學(xué)習(xí)課程

當(dāng)前位置:首頁  >  應(yīng)聘面試  >  Python面試題  > 【Python面試題】如何讀取大文件?

【Python面試題】如何讀取大文件?

來源:千鋒教育
發(fā)布人:wjy
時間: 2022-08-23 10:29:00 1661221740

如何讀取大文件,例如內(nèi)存只有4G,如何讀取一個大小為8G的文件?

很顯然4G內(nèi)存要一次性的加載大小為8G的文件是不現(xiàn)實的,遇到這種情況必須要考慮多次讀取和分批次處理。

在Python中讀取文件可以先通過open函數(shù)獲取文件對象,在讀取文件時,可以通過read方法的size參數(shù)指定讀取的大小,也可以通過seek方法的offset參數(shù)指定讀取的位置,這樣就可以控制單次讀取數(shù)據(jù)的字節(jié)數(shù)和總字節(jié)數(shù)。

除此之外,可以使用內(nèi)置函數(shù)iter將文件對象處理成迭代器對象,每次只讀取少量的數(shù)據(jù)進行處理,代碼大致寫法如下所示。

with open('...', 'rb') as file: for data in iter(lambda: file.read(2097152), b''): pass 在Linux系統(tǒng)上,可以通過split命令將大文件切割為小片,然后通過讀取切割后的小文件對數(shù)據(jù)進行處理。

例如下面的命令將名為filename的大文件切割為大小為512M的多個文件。

split -b 512m filename 如果愿意, 也可以將名為filename的文件切割為10個文件

命令如下所示。 split -n 10 filename

擴展:外部排序跟上述的情況非常類似,由于處理的數(shù)據(jù)不能一次裝入內(nèi)存,只能放在讀寫較慢的外存儲器(通常是硬盤)上。“排序-歸并算法”就是一種常用的外部排序策略。

在排序階段,先讀入能放在內(nèi)存中的數(shù)據(jù)量,將其排序輸出到一個臨時文件,依此進行,將待排序數(shù)據(jù)組織為多個有序的臨時文件,然后在歸并階段將這些臨時文件組合為一個大的有序文件,這個大的有序文件就是排序的結(jié)果。

千鋒教育

tags:
聲明:本站稿件版權(quán)均屬千鋒教育所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
10年以上業(yè)內(nèi)強師集結(jié),手把手帶你蛻變精英
請您保持通訊暢通,專屬學(xué)習(xí)老師24小時內(nèi)將與您1V1溝通
免費領(lǐng)取
今日已有369人領(lǐng)取成功
劉同學(xué) 138****2860 剛剛成功領(lǐng)取
王同學(xué) 131****2015 剛剛成功領(lǐng)取
張同學(xué) 133****4652 剛剛成功領(lǐng)取
李同學(xué) 135****8607 剛剛成功領(lǐng)取
楊同學(xué) 132****5667 剛剛成功領(lǐng)取
岳同學(xué) 134****6652 剛剛成功領(lǐng)取
梁同學(xué) 157****2950 剛剛成功領(lǐng)取
劉同學(xué) 189****1015 剛剛成功領(lǐng)取
張同學(xué) 155****4678 剛剛成功領(lǐng)取
鄒同學(xué) 139****2907 剛剛成功領(lǐng)取
董同學(xué) 138****2867 剛剛成功領(lǐng)取
周同學(xué) 136****3602 剛剛成功領(lǐng)取
相關(guān)推薦HOT
【Python面試題】談?wù)勀銓Α昂镒友a丁”(monkey patching)的理解

“猴子補丁”是動態(tài)類型語言的一個特性,代碼運行時在不修改源代碼的前提下改變代碼中的方法、屬性、函數(shù)等以達到熱補?。╤ot patch)的效果。詳情>>

2022-08-23 10:29:17
【Python面試題】使用Python代碼實現(xiàn)遍歷一個文件夾的操作

Python標準庫os模塊的walk函數(shù)提供了遍歷一個文件夾的功能,它返回一個生成器。import os g = os.walk('/Users/Hao/Downloads/') for path, dir...詳情>>

2022-08-23 10:29:09
【Python面試題】如何理解python中的封裝,繼承,多態(tài)的

封裝:封裝就是把對象的屬性和行為結(jié)合成一個獨立的整體,把內(nèi)部的實現(xiàn)細節(jié)隱藏起來,不能被外界所看見,調(diào)用的人只能執(zhí)行,而看不到實現(xiàn)的細節(jié)...詳情>>

2022-08-23 10:29:06
【Python面試題】運行下面的代碼是否會報錯

擴展:如果不希望代碼運行時動態(tài)的給對象添加新屬性,可以在定義類時使用__slots__魔法。例如,我們可以在上面的A中添加一行__slots__ = ('__va...詳情>>

2022-08-23 10:29:03
【Python面試題】閱讀下面的代碼說出運行結(jié)果。

在沒有多重繼承的情況下,向?qū)ο蟀l(fā)出一個消息,如果對象沒有對應(yīng)的方法,那么向上(父類)搜索的順序是非常清晰的。如果向上追溯到object類(所...詳情>>

2022-08-23 10:29:00
快速通道