网站首页 > 技术文章正文

Python 实现从文本文件提取数据并分析保存

nanyue 2025-05-03 15:50:34 技术文章 110 ℃

一、引言

在日常的数据处理工作中，我们经常会遇到从文本文件中提取特定信息并进行分析的需求。本文将详细介绍如何使用 Python 编写代码，从一个包含用户网络使用信息的文本文件中提取用户姓名、入站流量和出站流量信息，计算流量速率，并筛选出符合条件的数据保存到 Excel 文件中。

二、需求分析

我们有一个文本文件，其中包含了多个用户的网络使用信息，格式如下：

  User name                     : 15282814551
  Ipv4 Realtime speed inbound   : 0 kbyte/min
  Ipv4 Realtime speed outbound  : 0 kbyte/min
  Circuit ID                       :10.6.37.4/1/7/8/23 HWTC698dcd9c

我们的目标是提取出每个用户的用户名、入站流量和出站流量信息，计算入站和出站流量的速率（单位：M/S），筛选出入站速率大于 20 M/S 的数据，并将结果保存到 Excel 文件中。

三、代码实现

1. 导入必要的库

import re
import pandas as pd

re 模块是 Python 的正则表达式模块，用于从文本中提取特定格式的信息。正则表达式是一种强大的文本匹配工具，可以根据特定的模式来查找和提取文本。
pandas 是一个强大的数据处理和分析库，它提供了 DataFrame 数据结构，方便我们对数据进行操作和处理。

2. 定义正则表达式匹配函数re_val

def re_val(con, ex):
    try:
        size_re = re.compile(ex, re.MULTILINE)
        size_res = size_re.findall(str(con))
        if len(size_res) >= 1:
            return size_res
        else:
            return None
    except:
        return None

该函数接受两个参数：con 是要匹配的文本内容，ex 是正则表达式模式。
re.compile(ex, re.MULTILINE)：使用 re.compile 方法编译正则表达式，re.MULTILINE 标志表示多行模式，允许正则表达式匹配跨越多行的文本。
size_re.findall(str(con))：使用编译后的正则表达式对象 size_re 的 findall 方法查找文本中所有匹配的内容，并返回一个列表。
如果匹配结果的长度大于等于 1，则返回匹配结果列表；否则返回 None。如果在匹配过程中出现异常，也返回 None。

3. 定义读取文本文件并处理数据的函数open_txt

def open_txt(f1):
    with open(f1, mode='r') as f:
        data = f.read()
    data_list = []
    username = re_val(data, r'User name +: (\d+)')
    inbound = re_val(data, r'Ipv4 Realtime speed inbound +: (\d+)')
    outbound = re_val(data, r'Ipv4 Realtime speed outbound +: (\d+)')
    for i, j, z in zip(username, inbound, outbound):
        data_list.append([i, int(j), int(z)])
    df = pd.DataFrame(data_list, columns=['user_name', 'inbound(kbyte/min)', 'outbound(kbyte/min)'])
    df['inbound(M/S)'] = df['inbound(kbyte/min)'].apply(lambda x: int(x) * 8 / 1000 / 60)
    df['outbound(M/S)'] = df['outbound(kbyte/min)'].apply(lambda x: int(x) * 8 / 1000 / 60)
    df_res = df[df['inbound(M/S)'] > 20]
    df_res.to_excel(r'./result.xlsx', index=False)

3.1 读取文本文件

with open(f1, mode='r') as f:
    data = f.read()

使用 open 函数以只读模式打开文件，并使用 read 方法将文件内容读取到变量 data 中。

3.2 提取信息

username = re_val(data, r'User name +: (\d+)')
inbound = re_val(data, r'Ipv4 Realtime speed inbound +: (\d+)')
outbound = re_val(data, r'Ipv4 Realtime speed outbound +: (\d+)')

使用 re_val 函数分别提取用户名、入站流量和出站流量信息。正则表达式 r'User name +: (\d+)' 表示匹配以 User name 开头，后面跟着一个或多个空格，然后是冒号，再后面是一个或多个数字的内容，并提取出数字部分。同理，另外两个正则表达式分别用于提取入站流量和出站流量的数字部分。

3.3 创建数据列表

for i, j, z in zip(username, inbound, outbound):
    data_list.append([i, int(j), int(z)])

使用 zip 函数将提取的用户名、入站流量和出站流量信息组合成一个列表，每个元素是一个包含用户名、入站流量和出站流量的子列表。

3.4 创建数据框

df = pd.DataFrame(data_list, columns=['user_name', 'inbound(kbyte/min)', 'outbound(kbyte/min)'])

使用 pandas 的 DataFrame 函数将数据列表转换为数据框，并指定列名。

3.5 计算速率

df['inbound(M/S)'] = df['inbound(kbyte/min)'].apply(lambda x: int(x) * 8 / 1000 / 60)
df['outbound(M/S)'] = df['outbound(kbyte/min)'].apply(lambda x: int(x) * 8 / 1000 / 60)

使用 apply 方法和 lambda 函数计算入站和出站流量的速率（单位：M/S）。将入站和出站流量从 kbyte/min 转换为 M/S，需要先将 kbyte 转换为 bit（乘以 8），再将 min 转换为 s（除以 60），最后将结果转换为 M（除以 1000）。

3.6 筛选数据

df_res = df[df['inbound(M/S)'] > 20]

筛选出入站速率大于 20 M/S 的数据。

3.7 保存结果

df_res.to_excel(r'./result.xlsx', index=False)

将筛选后的数据保存到 Excel 文件中，index=False 表示不保存行索引。

4. 主程序

if __name__ == '__main__':
    open_txt(r'SCDEY-MC-CMNET-BRAS03-MZ')

五、总结

通过使用 Python 的正则表达式和 pandas 库，我们可以方便地从文本文件中提取所需信息，并进行数据处理和分析。最后，将筛选后的结果保存到 Excel 文件中，方便后续查看和使用。这种方法可以应用于各种类似的数据提取和分析场景，具有很强的通用性和灵活性。

上一篇： R数据分析:用R语言做meta分析（怎么用r语言分析数据）
下一篇： R文本挖掘:词云图怎么做，worldcloud2初识

网站首页 > 技术文章 正文