我們搞了個python的工具包PyTls。
做這件事的初衷是發生了一個星期要用python同時開發3個項目的情況,我發現了兩個現象:1.有很多定制化的需求是極度高頻反復重寫的;2.有很多功能之前寫過,可能因為稍許復雜又忘了,再用的時候又要去Google。所以,拉著同組的一個實習生,一起維護了PyTls的這個項目,為的就是那句"life is short, we need python"。
所有的詳細的測試demo都可以在我的git找到,PyTls的測試demos 希望可以幫助到你一些,以下簡單的介紹解釋一下每個功能。
dictt
get_map_value()
由于工程設計問題,我們的數據流中存在多層的字典數據格式:
```
In [7]: msg = {'time':{'20190714':234,'20190715':311}}
In [8]: dictt.get_map_value(msg,None,True,'time','20190714')
Out[8]: 234
```
這邊None是查找不到的時候的默認值,True可以不用管,是我這邊設計的是否一定要底層查找,比較業務化通用性不好,True之后就是依次需要按邏輯查找的dict字段。
update_map_value()
is_strict:True不允許新增kv,這邊不會報錯,只會增加不成功,需要注意一下。
sort_map_key()
按key排序字典,desc:是否降序
```
In [24]: msg = {11: 2, 2: 3, 9: 2}
...: print(dictt.sort_map_key(msg, desc=False))
[(2, 3), (9, 2), (11, 2)]
```
sort_map_value()
按value排序,其他同上
get_tree()
構建一個以字典為基礎的樹結構,字典套字典
swap()
key,value交換
merge()
合并兩個dict,順便說一句,reduce(merge,*dicts),合并N個,這個比較少用就沒整理
func_dict()
這個功能比較拗口,比如我們現在有個function,input 2,output 4,且想存儲所有的kv結果,所以可以用這個功能進行記錄。注意,這邊的入參應該是一個**函數**。
```
F = dictt.func_dict(lambda x: x * 2)
print((F[2], F))
# (4, defaultdict(
at 0x103d812f0>, {2: 4}))
```
WordCount()
字典樹,快速查詢和高效存儲,支持string和list/tuple;支持計數、查找、位置校驗三個核心功能
目前只output了是否存在查詢詞的功能,稍微改一下output就可以得到計數結果和位置結果,看有需要后期擴展一下這個功能,要說的是里面用了dfs,有點慢所以加了cache,這個點大家可以自行優化。
StrBuffer
參考java中的StringButter而寫的字符類,增加一些功能,重命名了我比較熟悉喜歡用的函數名,加了一些str內置沒有的功能
append()
增加一個字符
index_at()
查找某個元素的index
sort()
排序元素,字典序
reverse()
倒排所有字符
char_at()
查找某個index的元素
to_str()/storge()
to_str:以string的方式打印當前字符串
storge:以list的方式打印當前字符串
strt
str_reverse()
字符串反轉
str_repeat()
字符串快速復制,n為復制的次數
str_splits()
字符串批切割,split_chars為分隔符,支持多個,以|連接,warning_info可以設置為False進行關閉,取消提示信息
typet
基礎的格式判斷類,復用程度不高,主要是用來支持這個項目中的其他功能
is_none()
是否為None,支持None和np.nan判斷
is_type()
判斷是否為對應類型,類似于isinstance
is_empty()
判斷是否為空
is_has_attr()
判斷是否含有某個屬性,類中是否有某個屬性變量
loaddatat
pickle 的數據持久化,這個我用的最多,特別好用,可以支持在保持模型,整理數據,保存日志,存儲報錯信息等各個方向,我基本上每次必加載
readbunchobj()
讀數據
writebunchobj()
存數據
randomt
隨機數
get_random()
迭代器辦,每次隨機取一個;min_value, max_value限制范圍,limit限制可取的迭代次數
Chinese2num.py
數字相關,提取數字更加強大的功能建議參考YMMNlpUtils
Chinese_2_num()
中文轉成數字,支持繁體中文簡體中文的轉換,如果是提取手機號的或者更復雜的數據建議參考YMMNlpUtils項目
isdigit()
判斷是否為數字,同樣也支持小數,也可以識別str后的數字,會自動解析掉str,"0.234"-->True
matht
數學相關的類,包括信息熵,ln,互信息,條件概率等; 所有熵計算的函數中有個expiation的參數,設置為False就不提醒是否越大越穩定還是不穩定的提示信息了 ,主要是為老忘,自己提醒自己的
ln()
以e為地的對數
entropy()
熵值
condition_entropy()
條件熵
MI()
來自于條件概率計算法:H(x)-H(x/y)
NMI()
來自于公式的互信息熵計算:2*∑pxylog(pxy/(px*py))/(H(x)+H(y))
listt
list相關的處理,list是我最常用的一個type,所以我寫了比較多而且以后也會最常去更新的一個地方,確實很多東西固化下來很好用;該部分代碼盡可能考慮了時間復雜度,可能會犧牲一些空間復雜度,各位自行取舍
index_hash_map()
list元素出現位置,等同于numpy array中的`np.where`
Pi()
list元素出現的個數分布
single_one()
當數據是**成對出現**時候,找出其中落單的element;[2,2,1]-->[1]
subset()
找出對應list的子集;[1,2]-->[[],[1],[2],[1,2]]
permute()
找出對應list的全排列;[1,2]-->[1,2],[2,1]
flatten()
高維列表展開;[[1,2,3],[3,[4]]]--> [1, 2, 3, 3, 4]
duplicates()
原序去重;[3,3,1,2] -- >[3,1,2]
topn()
高頻統計,返回list中高頻出現的topn的對象,n為需要返回的個數;list:[3,3,1,2],n=1-->[(3,2)]
getindex()
返回list中最大/最小元素的位置:[3,1,2],flag="max"-->0/[3,1,2],flag="min"-->1;這邊參數flag記得要小寫min/max,大寫暫不識別
split()
list按照指定個數切分,比如split([1,2,3,4],3)-->[(1,2,3)];如果list%需要切分的長度!=0,則末端部分會被舍棄,需要注意一下;如果確實需要的話可以進行尾部以0填充,保證不丟失數據;
unzip()
把zip后的數據還原
歡迎大家關注我的個人bolg,知乎,更多代碼內容歡迎follow我的個人Github,如果有任何算法、代碼、轉>行疑問都歡迎通過郵箱發消息給我。
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
