我們搞了個python的工具包PyTls。
做這件事的初衷是發(fā)生了一個星期要用python同時開發(fā)3個項目的情況,我發(fā)現(xiàn)了兩個現(xiàn)象:1.有很多定制化的需求是極度高頻反復(fù)重寫的;2.有很多功能之前寫過,可能因為稍許復(fù)雜又忘了,再用的時候又要去Google。所以,拉著同組的一個實(shí)習(xí)生,一起維護(hù)了PyTls的這個項目,為的就是那句"life is short, we need python"。
所有的詳細(xì)的測試demo都可以在我的git找到,PyTls的測試demos 希望可以幫助到你一些,以下簡單的介紹解釋一下每個功能。
dictt
get_map_value()
由于工程設(shè)計問題,我們的數(shù)據(jù)流中存在多層的字典數(shù)據(jù)格式:
```
In [7]: msg = {'time':{'20190714':234,'20190715':311}}
In [8]: dictt.get_map_value(msg,None,True,'time','20190714')
Out[8]: 234
```
這邊None是查找不到的時候的默認(rèn)值,True可以不用管,是我這邊設(shè)計的是否一定要底層查找,比較業(yè)務(wù)化通用性不好,True之后就是依次需要按邏輯查找的dict字段。
update_map_value()
is_strict:True不允許新增kv,這邊不會報錯,只會增加不成功,需要注意一下。
sort_map_key()
按key排序字典,desc:是否降序
```
In [24]: msg = {11: 2, 2: 3, 9: 2}
...: print(dictt.sort_map_key(msg, desc=False))
[(2, 3), (9, 2), (11, 2)]
```
sort_map_value()
按value排序,其他同上
get_tree()
構(gòu)建一個以字典為基礎(chǔ)的樹結(jié)構(gòu),字典套字典
swap()
key,value交換
merge()
合并兩個dict,順便說一句,reduce(merge,*dicts),合并N個,這個比較少用就沒整理
func_dict()
這個功能比較拗口,比如我們現(xiàn)在有個function,input 2,output 4,且想存儲所有的kv結(jié)果,所以可以用這個功能進(jìn)行記錄。注意,這邊的入?yún)?yīng)該是一個**函數(shù)**。
```
F = dictt.func_dict(lambda x: x * 2)
print((F[2], F))
# (4, defaultdict(
at 0x103d812f0>, {2: 4}))
```
WordCount()
字典樹,快速查詢和高效存儲,支持string和list/tuple;支持計數(shù)、查找、位置校驗三個核心功能
目前只output了是否存在查詢詞的功能,稍微改一下output就可以得到計數(shù)結(jié)果和位置結(jié)果,看有需要后期擴(kuò)展一下這個功能,要說的是里面用了dfs,有點(diǎn)慢所以加了cache,這個點(diǎn)大家可以自行優(yōu)化。
StrBuffer
參考java中的StringButter而寫的字符類,增加一些功能,重命名了我比較熟悉喜歡用的函數(shù)名,加了一些str內(nèi)置沒有的功能
append()
增加一個字符
index_at()
查找某個元素的index
sort()
排序元素,字典序
reverse()
倒排所有字符
char_at()
查找某個index的元素
to_str()/storge()
to_str:以string的方式打印當(dāng)前字符串
storge:以list的方式打印當(dāng)前字符串
strt
str_reverse()
字符串反轉(zhuǎn)
str_repeat()
字符串快速復(fù)制,n為復(fù)制的次數(shù)
str_splits()
字符串批切割,split_chars為分隔符,支持多個,以|連接,warning_info可以設(shè)置為False進(jìn)行關(guān)閉,取消提示信息
typet
基礎(chǔ)的格式判斷類,復(fù)用程度不高,主要是用來支持這個項目中的其他功能
is_none()
是否為None,支持None和np.nan判斷
is_type()
判斷是否為對應(yīng)類型,類似于isinstance
is_empty()
判斷是否為空
is_has_attr()
判斷是否含有某個屬性,類中是否有某個屬性變量
loaddatat
pickle 的數(shù)據(jù)持久化,這個我用的最多,特別好用,可以支持在保持模型,整理數(shù)據(jù),保存日志,存儲報錯信息等各個方向,我基本上每次必加載
readbunchobj()
讀數(shù)據(jù)
writebunchobj()
存數(shù)據(jù)
randomt
隨機(jī)數(shù)
get_random()
迭代器辦,每次隨機(jī)取一個;min_value, max_value限制范圍,limit限制可取的迭代次數(shù)
Chinese2num.py
數(shù)字相關(guān),提取數(shù)字更加強(qiáng)大的功能建議參考YMMNlpUtils
Chinese_2_num()
中文轉(zhuǎn)成數(shù)字,支持繁體中文簡體中文的轉(zhuǎn)換,如果是提取手機(jī)號的或者更復(fù)雜的數(shù)據(jù)建議參考YMMNlpUtils項目
isdigit()
判斷是否為數(shù)字,同樣也支持小數(shù),也可以識別str后的數(shù)字,會自動解析掉str,"0.234"-->True
matht
數(shù)學(xué)相關(guān)的類,包括信息熵,ln,互信息,條件概率等; 所有熵計算的函數(shù)中有個expiation的參數(shù),設(shè)置為False就不提醒是否越大越穩(wěn)定還是不穩(wěn)定的提示信息了 ,主要是為老忘,自己提醒自己的
ln()
以e為地的對數(shù)
entropy()
熵值
condition_entropy()
條件熵
MI()
來自于條件概率計算法:H(x)-H(x/y)
NMI()
來自于公式的互信息熵計算:2*∑pxylog(pxy/(px*py))/(H(x)+H(y))
listt
list相關(guān)的處理,list是我最常用的一個type,所以我寫了比較多而且以后也會最常去更新的一個地方,確實(shí)很多東西固化下來很好用;該部分代碼盡可能考慮了時間復(fù)雜度,可能會犧牲一些空間復(fù)雜度,各位自行取舍
index_hash_map()
list元素出現(xiàn)位置,等同于numpy array中的`np.where`
Pi()
list元素出現(xiàn)的個數(shù)分布
single_one()
當(dāng)數(shù)據(jù)是**成對出現(xiàn)**時候,找出其中落單的element;[2,2,1]-->[1]
subset()
找出對應(yīng)list的子集;[1,2]-->[[],[1],[2],[1,2]]
permute()
找出對應(yīng)list的全排列;[1,2]-->[1,2],[2,1]
flatten()
高維列表展開;[[1,2,3],[3,[4]]]--> [1, 2, 3, 3, 4]
duplicates()
原序去重;[3,3,1,2] -- >[3,1,2]
topn()
高頻統(tǒng)計,返回list中高頻出現(xiàn)的topn的對象,n為需要返回的個數(shù);list:[3,3,1,2],n=1-->[(3,2)]
getindex()
返回list中最大/最小元素的位置:[3,1,2],flag="max"-->0/[3,1,2],flag="min"-->1;這邊參數(shù)flag記得要小寫min/max,大寫暫不識別
split()
list按照指定個數(shù)切分,比如split([1,2,3,4],3)-->[(1,2,3)];如果list%需要切分的長度!=0,則末端部分會被舍棄,需要注意一下;如果確實(shí)需要的話可以進(jìn)行尾部以0填充,保證不丟失數(shù)據(jù);
unzip()
把zip后的數(shù)據(jù)還原
歡迎大家關(guān)注我的個人bolg,知乎,更多代碼內(nèi)容歡迎follow我的個人Github,如果有任何算法、代碼、轉(zhuǎn)>行疑問都?xì)g迎通過郵箱發(fā)消息給我。
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
