我們搞了個python的工具包PyTls。

做這件事的初衷是發(fā)生了一個星期要用python同時開發(fā)3個項目的情況，我發(fā)現(xiàn)了兩個現(xiàn)象：1.有很多定制化的需求是極度高頻反復重寫的；2.有很多功能之前寫過，可能因為稍許復雜又忘了，再用的時候又要去Google。所以，拉著同組的一個實習生，一起維護了PyTls的這個項目，為的就是那句"life is short, we need python"。

所有的詳細的測試demo都可以在我的git找到，PyTls的測試demos 希望可以幫助到你一些，以下簡單的介紹解釋一下每個功能。

dictt

get_map_value()

          
            由于工程設計問題，我們的數據流中存在多層的字典數據格式：
```
In [7]: msg = {'time':{'20190714':234,'20190715':311}}
In [8]: dictt.get_map_value(msg,None,True,'time','20190714')
Out[8]: 234
```
這邊None是查找不到的時候的默認值，True可以不用管，是我這邊設計的是否一定要底層查找，比較業(yè)務化通用性不好，True之后就是依次需要按邏輯查找的dict字段。

update_map_value()

          
            is_strict：True不允許新增kv，這邊不會報錯，只會增加不成功，需要注意一下。

sort_map_key()

          
            按key排序字典，desc：是否降序
```
In [24]: msg = {11: 2, 2: 3, 9: 2}
    ...: print(dictt.sort_map_key(msg, desc=False))
[(2, 3), (9, 2), (11, 2)]
```

sort_map_value()

          
            按value排序，其他同上

get_tree()

          
            構建一個以字典為基礎的樹結構，字典套字典

swap()

          
            key,value交換

merge()

          
            合并兩個dict,順便說一句，reduce(merge,*dicts)，合并N個，這個比較少用就沒整理

func_dict()

          
            這個功能比較拗口，比如我們現(xiàn)在有個function，input 2，output 4，且想存儲所有的kv結果，所以可以用這個功能進行記錄。注意，這邊的入參應該是一個**函數**。
```
F = dictt.func_dict(lambda x: x * 2)
print((F[2], F))
# (4, defaultdict(
            
              
                 at 0x103d812f0>, {2: 4}))
```

WordCount()

          
            字典樹，快速查詢和高效存儲，支持string和list/tuple；支持計數、查找、位置校驗三個核心功能
目前只output了是否存在查詢詞的功能，稍微改一下output就可以得到計數結果和位置結果，看有需要后期擴展一下這個功能，要說的是里面用了dfs，有點慢所以加了cache，這個點大家可以自行優(yōu)化。

StrBuffer

參考java中的StringButter而寫的字符類，增加一些功能，重命名了我比較熟悉喜歡用的函數名，加了一些str內置沒有的功能

append()

          
            增加一個字符

index_at()

          
            查找某個元素的index

sort()

          
            排序元素，字典序

reverse()

          
            倒排所有字符

char_at()

          
            查找某個index的元素

to_str()/storge()

          
            to_str:以string的方式打印當前字符串
storge:以list的方式打印當前字符串

strt

str_reverse()

          
            字符串反轉

str_repeat()

          
            字符串快速復制，n為復制的次數

str_splits()

          
            字符串批切割，split_chars為分隔符，支持多個，以|連接，warning_info可以設置為False進行關閉，取消提示信息

typet

基礎的格式判斷類，復用程度不高，主要是用來支持這個項目中的其他功能

is_none()

          
            是否為None，支持None和np.nan判斷

is_type()

          
            判斷是否為對應類型，類似于isinstance

is_empty()

          
            判斷是否為空

is_has_attr()

          
            判斷是否含有某個屬性，類中是否有某個屬性變量

loaddatat

pickle 的數據持久化，這個我用的最多，特別好用，可以支持在保持模型，整理數據，保存日志，存儲報錯信息等各個方向，我基本上每次必加載

readbunchobj()

          
            讀數據

writebunchobj()

          
            存數據

randomt

隨機數

get_random()

          
            迭代器辦，每次隨機取一個;min_value, max_value限制范圍，limit限制可取的迭代次數

Chinese2num.py

數字相關，提取數字更加強大的功能建議參考YMMNlpUtils

Chinese_2_num()

          
            中文轉成數字，支持繁體中文簡體中文的轉換，如果是提取手機號的或者更復雜的數據建議參考YMMNlpUtils項目

isdigit()

          
            判斷是否為數字，同樣也支持小數，也可以識別str后的數字，會自動解析掉str，"0.234"-->True

matht

數學相關的類，包括信息熵，ln，互信息，條件概率等; 所有熵計算的函數中有個expiation的參數，設置為False就不提醒是否越大越穩(wěn)定還是不穩(wěn)定的提示信息了 ，主要是為老忘，自己提醒自己的

ln()

          
            以e為地的對數

entropy()

          
            熵值

condition_entropy()

          
            條件熵

MI()

          
            來自于條件概率計算法：H(x)-H(x/y)

NMI()

          
            來自于公式的互信息熵計算：2*∑pxylog(pxy/(px*py))/(H(x)+H(y))

listt

list相關的處理，list是我最常用的一個type，所以我寫了比較多而且以后也會最常去更新的一個地方，確實很多東西固化下來很好用;該部分代碼盡可能考慮了時間復雜度，可能會犧牲一些空間復雜度，各位自行取舍

index_hash_map()

          
            list元素出現(xiàn)位置，等同于numpy array中的`np.where`

Pi()

          
            list元素出現(xiàn)的個數分布

single_one()

          
            當數據是**成對出現(xiàn)**時候，找出其中落單的element；[2,2,1]-->[1]

subset()

          
            找出對應list的子集;[1,2]-->[[],[1],[2],[1,2]]

permute()

          
            找出對應list的全排列;[1,2]-->[1,2],[2,1]

flatten()

          
            高維列表展開;[[1,2,3],[3,[4]]]--> [1, 2, 3, 3, 4]

duplicates()

          
            原序去重；[3,3,1,2] -- >[3,1,2]

topn()

          
            高頻統(tǒng)計，返回list中高頻出現(xiàn)的topn的對象，n為需要返回的個數；list:[3,3,1,2],n=1-->[(3,2)]

getindex()

          
            返回list中最大/最小元素的位置:[3,1,2],flag="max"-->0/[3,1,2],flag="min"-->1;這邊參數flag記得要小寫min/max，大寫暫不識別

split()

          
            list按照指定個數切分，比如split([1,2,3,4],3)-->[(1,2,3)]；如果list%需要切分的長度!=0，則末端部分會被舍棄，需要注意一下；如果確實需要的話可以進行尾部以0填充，保證不丟失數據；

unzip()

          
            把zip后的數據還原

歡迎大家關注我的個人bolg，知乎，更多代碼內容歡迎follow我的個人Github，如果有任何算法、代碼、轉>行疑問都歡迎通過郵箱發(fā)消息給我。

更多文章、技術交流、商務合作、聯(lián)系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯(lián)系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義