台灣網站導航  www.9900.com.tw
標題:    Python 如何做文件快速統計 兩秒完成29個文件150萬數據統計     點閱:631   2017/7/2 上午 01:54:43
Python 如何做文件快速統計 兩秒完成29個文件150萬數據統計

最近看到在頭條號寫的原創文章在360文庫里面躺著還有其它的非授權小網站拿去發表了,挺鬧心的。跟360溝通中,希望頭條號這邊能維護原創的權益,至少發發警告信什么的。

今天來說說python在基礎方面的應用,剛好之前做了一個快速統計的功能,這里可以拿出來講解分享下。

當時的場景是這樣,拿到了一批次的詞庫文件,數量不多不少,29個文件。每個文件的大小不等,小的幾十K,大的幾M。要求是搞清楚這批詞庫的量級去到多少。

Python 如何做文件快速統計 兩秒完成29個文件150萬數據統計

難處在于,文件大小是雜亂的,估算的話,是可以根據單個文件的數據量和大小來評估,但要求精確到個數就難辦了。

兩個方法:

1、人工搞,全部文件打開,人眼看數目,記下。。

Python 如何做文件快速統計 兩秒完成29個文件150萬數據統計

2、寫個快速腳本。

我是個懶人,自然選2

那么開工,首先要搞清楚思路,文件有兩種,腳本和數據文件,python打開文件的時候,必須要能區別對待,非數據文件絕不能打開,這一點切記,程序當中尤其要注意,假設寫的不是讀取,而是刪除。。那就玩大了,這個切記。

其次,就是按照這個思路寫了。。。。本次的操作是非常簡單實用的。

Python 如何做文件快速統計 兩秒完成29個文件150萬數據統計

我們定義個數組,然后通過讀取csv格式的數據文件,全部寫入數組后,統計下數組的個數即可。len(csv_files_arr)即可。

Python 如何做文件快速統計 兩秒完成29個文件150萬數據統計

右側的圖片可以看到時間和數量,2秒,150萬個數據

如果不按照這個思路走,其實也可以計算每個文件的大小,加起來就可以。不過運算量會加大,要計算29個文件的數目,然后計算加法。

今天就分享這些。希望頭條號能保護好原創者的利益。


# 頻道訂閱:




  




重要聲明:本網站為內容提供及檔案上載之共享平台,內容發佈者請確保所提供之檔案/內容無任何違法或牴觸法令之虞。
如有違反相關版權問題,請來信告知,本版將刪除有爭議部份.