日韩av成人,美日韩在线观看,天天操精品

前言

今天，一起用 Python 來理一理紅樓夢里的那些關系

不要問我為啥是紅樓夢，而不是水滸三國或西游，因為我也鑒定的認為，紅樓才是無可爭議的中國古典小說只巔峰，且不接受反駁！而紅樓夢也是我多次反復品讀的為數不多的小說，對它的感情也是最深的。

好了，不酸了，開干。

數據準備

紅樓夢 TXT 文件一份

金陵十二釵 + 賈寶玉人物名稱列表

人物列表內容如下：

            
寶玉 nr
黛玉 nr
寶釵 nr
湘云 nr
鳳姐 nr
李紈 nr
元春 nr
迎春 nr
探春 nr
惜春 nr
妙玉 nr
巧姐 nr
秦氏 nr

這份列表，同時也是為了做分詞時使用，后面的 nr 就是人名的意思。

數據處理

讀取數據并加載詞典

            
  with open("紅樓夢.txt", encoding='gb18030') as f:
    honglou = f.readlines()
  jieba.load_userdict("renwu_forcut")
  renwu_data = pd.read_csv("renwu_forcut", header=-1)
  mylist = [k[0].split(" ")[0] for k in renwu_data.values.tolist()]

這樣，我們就把紅樓夢讀取到了 honglou 這個變量當中，同時也通過 load_userdict 將我們自定義的詞典加載到了 jieba 庫中。

對文本進行分詞處理并提取

            
tmpNames = []
  names = {}
  relationships = {}
  for h in honglou:
    h.replace("賈妃", "元春")
    h.replace("李宮裁", "李紈")
    poss = pseg.cut(h)
    tmpNames.append([])
    for w in poss:
      if w.flag != 'nr' or len(w.word) != 2 or w.word not in mylist:
        continue
      tmpNames[-1].append(w.word)
      if names.get(w.word) is None:
        names[w.word] = 0
      relationships[w.word] = {}
      names[w.word] += 1

首先，因為文中"賈妃", "元春"，"李宮裁", "李紈" 混用嚴重，所以這里直接做替換處理。
然后使用 jieba 庫提供的 pseg 工具來做分詞處理，會返回每個分詞的詞性。
之后做判斷，只有符合要求且在我們提供的字典列表里的分詞，才會保留。
一個人每出現一次，就會增加一，方便后面畫關系圖時，人物 node 大小的確定。
對于存在于我們自定義詞典的人名，保存到一個臨時變量當中 tmpNames。

處理人物關系

            
  for name in tmpNames:
    for name1 in name:
      for name2 in name:
        if name1 == name2:
          continue
        if relationships[name1].get(name2) is None:
          relationships[name1][name2] = 1
        else:
          relationships[name1][name2] += 1

對于出現在同一個段落中的人物，我們認為他們是關系緊密的，每同時出現一次，關系增加1.

保存到文件

            
  with open("relationship.csv", "w", encoding='utf-8') as f:
    f.write("Source,Target,Weight\n")
    for name, edges in relationships.items():
      for v, w in edges.items():
        f.write(name + "," + v + "," + str(w) + "\n")

  with open("NameNode.csv", "w", encoding='utf-8') as f:
    f.write("ID,Label,Weight\n")
    for name, times in names.items():
      f.write(name + "," + name + "," + str(times) + "\n")

文件1：人物關系表，包含首先出現的人物、之后出現的人物和一同出現次數
文件2：人物比重表，包含該人物總體出現次數，出現次數越多，認為所占比重越大。

制作關系圖表

使用 pyecharts 作圖

            
def deal_graph():
  relationship_data = pd.read_csv('relationship.csv')
  namenode_data = pd.read_csv('NameNode.csv')
  relationship_data_list = relationship_data.values.tolist()
  namenode_data_list = namenode_data.values.tolist()

  nodes = []
  for node in namenode_data_list:
    if node[0] == "寶玉":
      node[2] = node[2]/3
    nodes.append({"name": node[0], "symbolSize": node[2]/30})
  links = []
  for link in relationship_data_list:
    links.append({"source": link[0], "target": link[1], "value": link[2]})

  g = (
    Graph()
    .add("", nodes, links, repulsion=8000)
    .set_global_opts(title_opts=opts.TitleOpts(title="紅樓人物關系"))
  )
  return g

首先把兩個文件讀取成列表形式

對于“寶玉”，由于其占比過大，如果統一進行縮放，會導致其他人物的 node 過小，展示不美觀，所以這里先做了一次縮放

最后得出的關系圖

所有代碼已經上傳至 Github

最后，我還準備了一份更加全面的紅樓人物字典，可以在代碼倉庫中找到-“renwu_total”，感興趣的小伙伴也可以嘗試下，制作一個全人物的關系圖。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義