欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

python文本數據處理學習筆記詳解

系統 1609 0

最近越發感覺到限制我對Python運用、以及讀懂別人代碼的地方,大多是在于對數據的處理能力。

其實編程本質上就是數據處理,怎么把文本數據、圖像數據,通過python讀入、切分等,變成一個N維矩陣,然后再帶入別人的模型,bingo~跑出來一個結果。結果當然也是一個矩陣或向量的形式。

所以說,之所以對很多模型、代碼束手無策,其實還是沒有掌握好數據處理的“屠龍寶刀”,無法對海量數據進行“庖丁解牛”般的處理。因此,我想以一個別人代碼中的一段為例,仔細琢磨文本數據處理的精妙之處,爭取能夠加深對這方面的運用與理解。

1) 問題描述

數據:某個區域181天內的訪客數據,格式如下,第一列代表訪客的名稱,第二列代表這位訪客在181天內到達這片區域的時刻:

python文本數據處理學習筆記詳解_第1張圖片

目的:將訪客數據進行統計,并時間離散化,按照天 /周/小時處理為72624的三維矩陣。
也就是說,矩陣中的每一個值,代表該區域 周X、第幾周、幾點 的到訪人數,如
[1,5,19]=100,代表第5周的周一晚上7點的人數為100。

2)難點

當然是對我的難點。

2.1)怎么按行統計

2.2)怎么進行時間離散化(存為天、周、時刻的矩陣)

3)代碼

            
import time
import numpy as np
import sys
import datetime
import pandas as pd
import os
#用字典查詢代替類型轉換,可以減少一部分計算時間
date2position = {}
datestr2dateint = {}
str2int = {}
for i in range(182):
 date = datetime.date(day=1, month=10, year=2018)+datetime.timedelta(days=i)
 #print(i,":",date)
 date_int = int(date.__str__().replace("-", ""))
 date2position[date_int] = [i%7, i//7]
 datestr2dateint[str(date_int)] = date_int
#print(datestr2dateint)
#
for i in range(24):
 str2int[str(i).zfill(2)] = i
f=open("D:\BaiDuBigData19-URFC-master\\UrbanRegionFunctionClassification-master\data\\train_visit\\000000_008.txt")
#table = pd.read_csv(f, header=None,error_bad_lines=False)
table = pd.read_csv(f, header=None,sep='\t')

#print(table.shape)
#print(table.ix[1])
strings = table[1]
#print(strings)
init = np.zeros((7, 26, 24))
for string in strings:
 temp = []
 for item in string.split(','):
 temp.append([item[0:8], item[9:].split("|")])
 for date, visit_lst in temp:
 # x - 第幾周
 # y - 第幾天
 # z - 幾點鐘
 # value - 到訪的總人數
 # print(visit_lst)
 print(date)
 x, y = date2position[datestr2dateint[date]]
 for visit in visit_lst: # 統計到訪的總人數
  init[x][y][str2int[visit]] += 1
 #print(init[x][y][str2int[visit]])```
          

3.1)創建字典,時間離散化,節省時間

此處創建了三個字典,讓我們看一下代碼實現以及打印結果:

            
date2position = {}
datestr2dateint = {}
str2int = {}
for i in range(182):
 date = datetime.date(day=1, month=10, year=2018)+datetime.timedelta(days=i)
 #print(i,":",date)
 date_int = int(date.__str__().replace("-", ""))
 date2position[date_int] = [i%7, i//7]
 datestr2dateint[str(date_int)] = date_int
for i in range(24):
 str2int[str(i).zfill(2)] = i
          

打印一下 date2position:

python文本數據處理學習筆記詳解_第2張圖片

打印一下 datestr2dateint:

python文本數據處理學習筆記詳解_第3張圖片

打印str2int:

可以看出,datestr2dateint是將str的日期,轉換為了int的日期。
而date2position 才是計算出的每一個具體的日期,代表了第幾周、第幾天。
str2int代表了一天中的24個時刻。

3.2)讀取文件,按行獲取字符串

注意到文本的分隔符為\t(區分用戶名與到訪信息的分割),于是采用

            
f=open("D:\BaiDuBigData19-URFC-master\\UrbanRegionFunctionClassification-master\data\\train_visit\\000000_008.txt")
#table = pd.read_csv(f, header=None,error_bad_lines=False)
table = pd.read_csv(f, header=None,sep='\t')
          

然后用strings讀取到訪信息,也就是table的第二列:

            
strings = table[1]
          

3.3)切分字符串

首先,strings為:

python文本數據處理學習筆記詳解_第4張圖片

可以看到每一行string,為一個用戶的到訪記錄,循環讀取。其中,不同日期的到訪是用“,”隔開,故要使用:

            
for string in strings:
 temp = []
 for item in string.split(','):
          

item就可以分開每一個日期的到訪記錄了:

python文本數據處理學習筆記詳解_第5張圖片

其后,使用temp列表,每一行存儲日期和時刻。
如第一個item為 20181221&09|10|11|12|13|14|15
日期為 item[0:8],
時刻之間使用分隔符“|”隔開,故可以通過item[9:].split("|")得到。

            
temp.append([item[0:8], item[9:].split("|")])
          

打印一下temp為:

python文本數據處理學習筆記詳解_第6張圖片

所以需要用兩個數據分別存儲日期,以及時刻。
首先用來轉換成 周、天、時刻的72624矩陣(根據前面的轉換函數)
其后根據這個矩陣,統計每一個位置的訪客數量

            
for date, visit_lst in temp:
 # x - 第幾周
 # y - 第幾天
 # z - 幾點鐘
 # value - 到訪的總人數
 # print(visit_lst)
 #print(date)
 x, y = date2position[datestr2dateint[date]]
 for visit in visit_lst: # 統計到訪的總人數
  init[x][y][str2int[visit]] += 1
          

這一段代碼很短,但著實是整個時間離散化實現的精髓所在。

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 日本欧美黄色 | 精品国产一区二区三区久久久蜜臀 | 久久久久91 | 色www 永久免费网站 | 黄色免费观看 | 在线二区 | 国产区在线观看 | 久久中文字幕一区二区 | 91seseav| 一级做a爰片性色毛片男 | 天堂资源最新在线 | 小明看看成人免费视频 | 欧美偷拍自拍视频 | 国产免费一区二区三区免费视频 | 天天干天天操天天爽 | 国产福利一区二区在线精品 | 超级碰97 | 天堂成人A片永久免费网站 奇米影视四色7777 | 在线视频中文字幕乱人伦 | 天天摸夜夜摸夜夜狠狠摸 | 亚洲成人午夜在线 | 九九热中文字幕 | 精品欧美一区二区在线观看 | 亚洲无线视频 | 噜噜噜天天躁狠狠躁夜夜精品 | 久碰人澡人澡人澡人澡91 | 最新色图 | 性夜黄a爽影免费看 | 男女拍拍拍无挡免费视频 | 欧美精选在线 | 欧美综合亚洲 | 欧美精品在线观看 | 亚洲成人第一页 | 性色欧美| 一区二区三区高清在线观看 | 夜本色 | 午夜日韩| 成人福利在线观看 | 成人欧美一区二区 | 日日干夜夜操 | 午夜成人在线视频 |