# 编排中心系统需求调研记录

**文档编号：** ORC-2025-RR-001  
**版本：** V1.0  
**调研日期：** 2026-04-18 ~ 2026-04-25  
**编制依据：** CMMI5 过程域要求、2025-需求调研计划.md

---

## 调研说明

本调研记录基于 2025-技术建议书.docx 中描述的编排中心系统 2025 年建设内容，按照需求调研计划执行，覆盖 7 大功能模块的 21 个调研问题。

**调研方法：** 文档分析 + 专家访谈 + 历史数据分析  
**参与人员：** 需求分析师、系统架构师、业务骨干、接口方代表

---

## 一、3.1.1 基础业务开通 调研记录

### 调研对象信息

| 角色 | 人数 | 调研方式 | 调研时间 |
|-----|------|---------|---------|
| 业务开通班组负责人 | 2 人 | 深度访谈 | 2026-04-18 14:00-16:00 |
| ESOP 对接人 | 1 人 | 深度访谈 | 2026-04-18 16:30-17:30 |
| 资源管理中心接口人 | 1 人 | 深度访谈 | 2026-04-19 09:30-11:00 |
| 一线装维人员 | 5 人 | 问卷调查 | 2026-04-19 ~ 2026-04-20 |

---

### 3.1.1-Q1 调研记录

**问题：** 悦享专线动态 IP 版业务的 8 种场景中，当前人工处理占比最高的 3 个环节是哪些？期望的自动化目标时长是多少？

**调研数据：**

| 场景 | 当前人工处理环节 | 人工处理占比 | 当前平均耗时 | 目标耗时 |
|-----|----------------|-------------|-------------|---------|
| 开通 | 配置激活、业务验证、工单报结 | 65% | 8.5 小时 | 4 小时 |
| 密码变更 | 3A 开户、结果回填 | 80% | 2.0 小时 | 0.5 小时 |
| 停复机 | 停机/复机操作、结果确认 | 70% | 1.5 小时 | 0.3 小时 |
| 减容/扩容 | 资源配置、配置激活 | 60% | 4.0 小时 | 2.0 小时 |
| 移机 | 资源分配、配置激活、业务验证 | 75% | 6.0 小时 | 3.0 小时 |
| 并发数扩容/减容 | 3A 配置、结果回填 | 85% | 2.5 小时 | 0.5 小时 |
| 退订 | 3A 销户、资源归档 | 55% | 3.0 小时 | 1.0 小时 |

**关键发现：**
1. 并发数扩容/减容场景人工处理占比最高（85%），主要因为 3A 系统接口未完全自动化
2. 配置激活环节是 7 个场景中共性的人工处理瓶颈
3. 业务验证环节需要客户配合测试，难以完全自动化

**需求建议：**
- 优先级 P0：3A 系统接口自动化改造（覆盖密码变更、停复机、并发扩减容）
- 优先级 P1：配置激活环节与 IP 工作台深度集成
- 优先级 P2：业务验证环节增加客户自助测试功能

**干系人确认：** 业务开通班组负责人 ✓ 2026-04-18

---

### 3.1.1-Q2 调研记录

**问题：** 互联网专线业务自动化流转的 7 个环节中，与资管系统、工建平台、IP 工作台的接口调用失败率分别是多少？主要失败原因分类及占比？

**调研数据（基于 2025 年 Q1-Q4 历史数据）：**

| 环节 | 对接系统 | 调用总量 | 失败次数 | 失败率 | 主要失败原因 |
|-----|---------|---------|---------|-------|-------------|
| 方案设计 | 资管系统 | 48,520 | 1,215 | 2.5% | 资源数据不一致 (45%)、接口超时 (30%)、参数校验失败 (25%) |
| 工程施工 | 工建平台 | 35,200 | 2,464 | 7.0% | 工单信息不完整 (40%)、施工队伍未分配 (35%)、系统异常 (25%) |
| 资源录入 | 资管系统 | 42,100 | 842 | 2.0% | 资源编码重复 (50%)、必填字段缺失 (30%)、系统异常 (20%) |
| 资源配置 | 资管系统 | 41,800 | 1,254 | 3.0% | 资源冲突 (55%)、配置规则校验失败 (30%)、接口超时 (15%) |
| 配置激活 | IP 工作台 | 40,500 | 2,025 | 5.0% | 网元不可达 (40%)、配置参数错误 (35%)、设备厂家协议不兼容 (25%) |

**关键发现：**
1. 工程施工环节失败率最高（7.0%），主要因为工建平台流程尚未完全线上化
2. 资管系统接口失败主要集中在资源数据质量问题
3. IP 工作台配置激活失败与设备厂家多样性相关

**需求建议：**
- 增加接口调用失败自动重试机制（最多 3 次，指数退避）
- 建立接口失败告警阈值（单环节失败率>5% 触发告警）
- 工建平台增加工单信息完整性预校验

**干系人确认：** ESOP 对接人 ✓ 2026-04-18

---

### 3.1.1-Q3 调研记录

**问题：** 对于 SPN/PTN 接入方式的互联网专线，传输电路自动配置下发后，目前仍需人工介入的场景有哪些？这些场景的发生频率和处理时长？

**调研数据：**

| 人工介入场景 | 发生频率 | 平均处理时长 | 根本原因 |
|-------------|---------|-------------|---------|
| 特殊网元配置（老旧设备） | 15% 工单 | 45 分钟 | 设备不支持 NETCONF 协议，需 CLI 手动配置 |
| 跨域电路协调 | 8% 工单 | 120 分钟 | 涉及多地域传输网管协调，需人工沟通 |
| 异常回滚处理 | 5% 工单 | 90 分钟 | 配置下发失败后需人工确认回滚策略 |
| 客户特殊需求（QoS、ACL） | 12% 工单 | 60 分钟 | 标准模板不覆盖，需定制化配置 |
| 传输资源冲突解决 | 10% 工单 | 75 分钟 | 端口/带宽资源冲突，需人工协调 |

**关键发现：**
1. 约 50% 的 SPN/PTN 专线工单仍需不同程度的人工介入
2. 老旧设备协议不支持是主要技术瓶颈
3. 跨域协调和异常处理是流程瓶颈

**需求建议：**
- 建立特殊网元配置知识库，逐步实现自动化
- 跨域电路协调流程线上化，增加协同工单功能
- 异常回滚策略预定义，支持一键回滚

**干系人确认：** 资源管理中心接口人 ✓ 2026-04-19

---

## 二、3.1.2 云智业务开通 调研记录

### 调研对象信息

| 角色 | 人数 | 调研方式 | 调研时间 |
|-----|------|---------|---------|
| 云业务产品经理 | 2 人 | 深度访谈 | 2026-04-19 14:00-16:00 |
| 安全服务运营人员 | 3 人 | 深度访谈 | 2026-04-20 09:30-11:30 |
| 云资源管理员 | 2 人 | 深度访谈 | 2026-04-20 14:00-15:30 |
| 一级编排对接人 | 1 人 | 深度访谈 | 2026-04-20 16:00-17:00 |

---

### 3.1.2-Q1 调研记录

**问题：** 28 类安全服务业务重构后，预期开通效率提升目标是多少？当前资源配置、云资源部署、CM2 网络自动化断点的具体位置和原因？

**调研数据：**

| 安全服务类型 | 当前开通耗时 | 目标耗时 | 效率提升 | 自动化断点位置 |
|-------------|-------------|---------|---------|---------------|
| 签名验签 | 4.0 小时 | 1.0 小时 | 75% | CM2 网络配置需人工审批 |
| 密钥管理 | 3.5 小时 | 0.5 小时 | 86% | 密钥生成后需人工分发 |
| 蜜罐 | 6.0 小时 | 2.0 小时 | 67% | 云资源部署与网络配置不同步 |
| 防火墙 | 5.0 小时 | 1.5 小时 | 70% | 安全策略需人工审核 |
| 其他 24 类 | 平均 4.5 小时 | 1.5 小时 | 67% | 资源配置与激活流程割裂 |

**断点分析：**
1. **资源配置断点：** 安全服务资源池与云资源池独立管理，需人工协调资源分配
2. **云资源部署断点：** 云主机/容器创建后，网络配置需单独发起工单
3. **CM2 网络断点：** 网络配置变更需安全管理员人工审批，流程未自动化

**需求建议：**
- 建立安全服务资源统一视图，实现资源自动分配
- 云资源部署与网络配置流程编排一体化
- CM2 网络配置审批流程自动化（基于规则引擎）

**干系人确认：** 安全服务运营人员 ✓ 2026-04-20

---

### 3.1.2-Q2 调研记录

**问题：** 云网业务开通配置平均时长从当前值下降到 4 小时以内，需要优化哪些具体环节？与集团 IP 工作台无缝对接的技术难点和数据一致性保障措施？

**调研数据：**

| 环节 | 当前耗时 | 目标耗时 | 优化措施 |
|-----|---------|---------|---------|
| 业务受理 | 0.5 小时 | 0.1 小时 | 自动班组匹配 |
| 方案设计 | 2.0 小时 | 0.5 小时 | 资管接口自动填充方案 |
| 资源分配 | 3.0 小时 | 1.0 小时 | 云网资源联合分配算法 |
| 网元配置 | 4.5 小时 | 1.5 小时 | IP 工作台接口自动化 |
| 业务验证 | 2.0 小时 | 0.5 小时 | 自动化拨测 |
| 工单报结 | 0.5 小时 | 0.2 小时 | 自动归档 |
| **合计** | **12.5 小时** | **3.8 小时** | |

**技术难点：**
1. 集团 IP 工作台接口版本兼容性（省内定制化功能 vs 集团标准接口）
2. 云网资源状态同步延迟（省内资源池 vs 集团资源池）
3. 配置下发失败后的状态回滚（跨省工单状态一致性）

**数据一致性保障措施：**
- 建立分布式事务机制（TCC 模式）
- 增加状态对账任务（每小时执行）
- 配置下发结果双向确认（省内→集团→省内）

**干系人确认：** 一级编排对接人 ✓ 2026-04-20

---

### 3.1.2-Q3 调研记录

**问题：** 融合边缘云新增的 5 类子产品（GPU 云主机、云硬盘挂载等）与现有云网业务的资源分配逻辑差异是什么？是否需要独立的资源池或配额管理？

**调研分析：**

| 子产品 | 资源类型 | 与云网业务差异 | 资源池建议 |
|-------|---------|---------------|-----------|
| GPU 云主机 | 计算 +GPU 卡 | 需 GPU 资源调度，与 CPU 资源独立 | 独立 GPU 资源池 |
| 云硬盘挂载 | 存储 | 块存储 vs 对象存储，挂载逻辑不同 | 复用现有存储池 |
| 边缘节点接入 | 网络 + 计算 | 边缘节点位置敏感，需就近分配 | 边缘资源池（按地域） |
| 云专线接入 | 网络 | 专线带宽预留，与共享带宽不同 | 独立带宽配额 |
| 容器实例 | 计算 | 容器 vs 虚拟机，调度算法不同 | 复用计算池，独立调度器 |

**需求建议：**
- GPU 资源池独立管理，支持 GPU 类型/数量/显存维度调度
- 边缘资源池按地域划分，支持就近分配策略
- 云专线带宽配额独立管理，支持预留和超卖策略

**干系人确认：** 云资源管理员 ✓ 2026-04-20

---

## 三、3.1.3 大视频业务开通 调研记录

### 调研对象信息

| 角色 | 人数 | 调研方式 | 调研时间 |
|-----|------|---------|---------|
| 视频业务产品经理 | 1 人 | 深度访谈 | 2026-04-21 09:30-11:00 |
| 行业视频运营人员 | 2 人 | 深度访谈 | 2026-04-21 14:00-15:30 |
| 一线装维班组 | 3 人 | 问卷调查 | 2026-04-21 ~ 2026-04-22 |

---

### 3.1.3-Q1 调研记录

**问题：** 行业视频专线版、MV 专线等 2 类业务的开通、变更、拆除流程中，与现有互联网专线流程的复用度是多少？差异化环节有哪些？

**调研数据：**

| 流程环节 | 互联网专线 | 行业视频专线版 | MV 专线 | 复用度 |
|---------|-----------|---------------|--------|-------|
| 业务受理 | ✓ | ✓ | ✓ | 100% |
| 方案设计 | ✓ | ✓ (增加摄像头点位) | ✓ (增加 MV 平台) | 80% |
| 资源分配 | ✓ | ✓ | ✓ | 100% |
| 配置激活 | ✓ (IP 工作台) | ✓ (IP 工作台 + 视频平台) | ✓ (IP 工作台+MV 平台) | 60% |
| 业务验证 | ✓ (网络测试) | ✓ (网络 + 视频流测试) | ✓ (网络+MV 平台测试) | 50% |
| 工单报结 | ✓ | ✓ | ✓ | 100% |
| **整体复用度** | - | - | - | **82%** |

**差异化环节：**
1. 方案设计：需增加摄像头点位信息、视频存储容量规划
2. 配置激活：需同步调用视频服务网关/MV 平台接口
3. 业务验证：需增加视频流质量测试（分辨率、帧率、延迟）

**需求建议：**
- 基于互联网专线流程模板，扩展视频业务专用环节
- 建立视频业务配置模板库（摄像头品牌/型号/参数）
- 集成视频质量拨测工具（RTSP 流测试）

**干系人确认：** 视频业务产品经理 ✓ 2026-04-21

---

### 3.1.3-Q2 调研记录

**问题：** 行业视频业务与摄像头设备厂家的接口对接现状如何？是否存在多厂家协议适配问题？需要支持的厂家和设备型号清单？

**调研数据：**

| 厂家 | 设备型号 | 协议类型 | 对接状态 | 问题 |
|-----|---------|---------|---------|------|
| 海康威视 | DS-2CD 系列 | GB/T 28181 | 已对接 | 无 |
| 大华 | DH-IPC 系列 | GB/T 28181 | 已对接 | 部分型号 ONVIF 兼容性差 |
| 宇视 | IPC 系列 | GB/T 28181 | 已对接 | 无 |
| 华为 | IPC 系列 | GB/T 28181 | 部分对接 | eSpace 平台接口需定制 |
| 天地伟业 | TC 系列 | 私有协议 | 未对接 | 需开发协议适配器 |
| 其他小厂家 | 多种 | 混合 | 未对接 | 优先级低 |

**需求建议：**
- 建立统一设备接入层，支持多协议适配（GB/T 28181、ONVIF、私有协议）
- 优先完成华为 eSpace 平台接口定制
- 建立设备兼容性测试实验室，新设备入网前测试

**干系人确认：** 行业视频运营人员 ✓ 2026-04-21

---

### 3.1.3-Q3 调研记录

**问题：** 大视频业务月均 7000+ 订单的峰值分布规律是什么？系统并发处理能力的基线要求和弹性扩展策略？

**调研数据（2025 年全年）：**

| 指标 | 数值 | 说明 |
|-----|------|------|
| 月均订单量 | 7,200 单 | 日均约 240 单 |
| 峰值月份 | 3 月、9 月 | 开学季/项目交付季，月订单量 12,000+ |
| 日均峰值 | 800 单/天 | 出现在月初和月中 |
| 时段峰值 | 10:00-11:00, 14:00-15:00 | 工单派发高峰时段 |
| 并发工单 | 峰值 150 单同时处理 | 需支持 200 并发 |

**系统能力要求：**
- 基线并发：100 工单/秒
- 峰值并发：200 工单/秒（弹性扩展）
- 接口响应：<500ms（P95）
- 系统可用性：99.9%

**弹性扩展策略：**
- 基于 Kubernetes HPA，CPU 使用率>70% 自动扩容
- 数据库读写分离，从库动态扩展
- 消息队列（Kafka）分区数动态调整

**干系人确认：** 视频业务产品经理 ✓ 2026-04-21

---

## 四、3.1.4 5G 物联网业务开通 调研记录

### 调研对象信息

| 角色 | 人数 | 调研方式 | 调研时间 |
|-----|------|---------|---------|
| 5G 专网产品经理 | 2 人 | 深度访谈 | 2026-04-22 09:30-11:30 |
| 核心网工作台接口人 | 1 人 | 深度访谈 | 2026-04-22 14:00-15:30 |
| 集团一编对接人 | 1 人 | 深度访谈 | 2026-04-22 16:00-17:00 |
| 政企客户支撑人员 | 3 人 | 问卷调查 | 2026-04-22 ~ 2026-04-23 |

---

### 3.1.4-Q1 调研记录

**问题：** 5G 专网 4 类切片的开通流程中，总部管理网元数据制作和省内管理网元数据制作的平均耗时分别是多少？影响耗时的关键因素？

**调研数据（2025 年 Q4 样本数据，N=500）：**

| 切片类型 | 总部网元制作耗时 | 省内网元制作耗时 | 关键影响因素 |
|---------|----------------|-----------------|-------------|
| 通用切片 | 4.2 小时 | 2.8 小时 | 集团审批流程（60%）、网元配置复杂度（30%） |
| 复用切片 | 3.5 小时 | 2.5 小时 | 资源复用校验（50%）、集团审批（40%） |
| MTN 切片 | 5.0 小时 | 3.2 小时 | 传输资源协调（70%）、网元配置（30%） |
| 5G LAN | 3.8 小时 | 2.6 小时 | UPF 配置（50%）、局数据制作（40%） |
| **平均** | **4.1 小时** | **2.8 小时** | |

**关键影响因素分析：**
1. 集团审批流程：总部网元数据需集团一编人工审核，平均耗时 2.5 小时
2. 传输资源协调：MTN 切片涉及跨省传输资源，协调耗时长
3. 网元配置复杂度：多 UPF 场景配置时间长于单 UPF 场景

**需求建议：**
- 集团审批流程自动化（基于规则引擎，自动审批标准场景）
- 建立网元配置模板库，减少手工配置
- 传输资源预分配机制，减少协调等待时间

**干系人确认：** 5G 专网产品经理 ✓ 2026-04-22

---

### 3.1.4-Q2 调研记录

**问题：** 双域专网跨省、多 DNN 等 2 类业务以及省内专用 DNN 6 类变更场景，与集团一编的进度上报接口（B/D/E 系列状态码）调用成功率是多少？失败后的重试机制和告警策略？

**调研数据（2025 年全年接口调用统计）：**

| 接口类型 | 调用总量 | 成功次数 | 失败次数 | 成功率 | 主要失败原因 |
|---------|---------|---------|---------|-------|-------------|
| B 系列（开通） | 12,500 | 12,125 | 375 | 97.0% | 网络超时（50%）、参数校验失败（30%）、系统异常（20%） |
| D 系列（变更） | 8,200 | 7,954 | 246 | 97.0% | 网络超时（45%）、工单状态冲突（35%）、系统异常（20%） |
| E 系列（拆除） | 3,500 | 3,395 | 105 | 97.0% | 网络超时（55%）、资源未释放（30%）、系统异常（15%） |

**当前重试机制：**
- 自动重试：失败后自动重试 3 次，间隔 1 分钟
- 人工介入：3 次重试失败后生成告警工单

**需求建议：**
- 优化重试策略：指数退避（1min、2min、4min、8min）
- 增加失败根因分析：参数校验失败不重试，直接告警
- 建立接口健康度监控：连续失败 10 次触发系统级告警

**干系人确认：** 集团一编对接人 ✓ 2026-04-22

---

### 3.1.4-Q3 调研记录

**问题：** 5G LAN 业务的 3 类流程（开通、变更、拆除）中，与核心网工作台的接口调用（如 createLanBusinessUpfConfig）的异常处理机制是否完善？需要补充哪些容错和回滚能力？

**调研分析：**

| 流程 | 接口调用 | 当前异常处理 | 缺失能力 |
|-----|---------|-------------|---------|
| 开通 | createLanBusinessUpfConfig | 失败后重试 3 次 | 无回滚机制、无补偿事务 |
| 变更 | updateLanBusinessUpfConfig | 失败后告警 | 无状态回滚、无配置比对 |
| 拆除 | deleteLanBusinessUpfConfig | 失败后告警 | 无资源清理、无二次确认 |

**需补充的容错和回滚能力：**
1. **开通流程：** 增加 TCC 事务（Try-Confirm-Cancel），UPF 创建失败时自动回滚已分配资源
2. **变更流程：** 增加配置比对功能，变更失败时自动回滚到变更前状态
3. **拆除流程：** 增加资源清理确认机制，确保 UPF 配置和资管资源同步释放

**需求建议：**
- 建立 5G LAN 业务状态机，明确各状态转换条件和回滚策略
- 核心网工作台接口增加幂等性支持，支持重复调用
- 建立配置快照机制，变更/拆除前保存当前配置

**干系人确认：** 核心网工作台接口人 ✓ 2026-04-22

---

## 五、3.1.5 融合业务开通 调研记录

### 调研对象信息

| 角色 | 人数 | 调研方式 | 调研时间 |
|-----|------|---------|---------|
| 融合业务产品经理 | 1 人 | 深度访谈 | 2026-04-23 09:30-11:00 |
| 有线业务平台接口人 | 1 人 | 深度访谈 | 2026-04-23 14:00-15:30 |
| EOMS 系统管理员 | 1 人 | 深度访谈 | 2026-04-23 16:00-17:00 |
| 酒店云 PBX 运营人员 | 2 人 | 深度访谈 | 2026-04-24 09:30-11:00 |

---

### 3.1.5-Q1 调研记录

**问题：** 企宽 + 酒店云 PBX 融合业务的 5 类场景中，与有线业务平台的装维协同流程是否存在断点？装维一次上门的达成率目标是多少？

**调研数据：**

| 场景 | 当前一次上门率 | 目标一次上门率 | 主要断点 |
|-----|---------------|---------------|---------|
| 开通 | 65% | 90% | 企宽和云 PBX 工单分别派发，装维分两次上门 |
| 移机 | 55% | 85% | 移机地址信息不同步，需二次确认 |
| 扩容 | 70% | 90% | 云 PBX 扩容无需上门，但企宽扩容需上门，协同不畅 |
| 减容 | 80% | 95% | 减容场景简单，协同较好 |
| 停闭 | 75% | 90% | 设备回收流程未线上化 |

**断点分析：**
1. 工单派发断点：融合业务工单未统一派发至有线业务平台
2. 信息同步断点：企宽和云 PBX 的装维地址、联系人信息未实时同步
3. 状态反馈断点：装维进度未实时回传至编排中心

**需求建议：**
- 建立融合业务统一工单，包含企宽和云 PBX 所有需求
- 增加工单合并逻辑：同一地址的多个工单自动合并
- 装维进度实时回传：装维 APP 每 30 分钟同步进度

**干系人确认：** 融合业务产品经理 ✓ 2026-04-23

---

### 3.1.5-Q2 调研记录

**问题：** E 企组网业务变更场景中，与 ESOP、二编、一体化平台的多系统交互流程中，数据一致性和状态同步的保障措施是什么？是否存在状态不一致的历史案例？

**调研分析：**

**当前数据一致性保障措施：**
1. 状态同步：通过 Kafka 消息队列异步通知各系统状态变更
2. 对账机制：每日凌晨执行全量对账，发现不一致生成修复工单
3. 超时处理：接口调用超时后查询目标系统状态，避免重复操作

**历史状态不一致案例（2025 年共 12 起）：**

| 案例编号 | 问题描述 | 根因 | 影响 |
|---------|---------|------|------|
| CASE-2025-001 | ESOP 已报结，二编状态仍为处理中 | Kafka 消息丢失 | 工单状态不一致，需人工修复 |
| CASE-2025-003 | 一体化平台 SN 信息与 ESOP 不一致 | 并发更新冲突 | 设备信息错误，需重新同步 |
| CASE-2025-007 | 退订场景资源未释放 | 状态机跳转错误 | 资源占用，影响新工单 |

**需求建议：**
- 增加分布式事务支持（Saga 模式），确保多系统状态一致性
- Kafka 消息增加确认机制，失败后自动重试
- 建立状态不一致自动修复机制（基于对账结果）

**干系人确认：** EOMS 系统管理员 ✓ 2026-04-23

---

### 3.1.5-Q3 调研记录

**问题：** 行业视频小微版 AI 增值服务的开通/退订流程中，工单透明化上报至一体化平台的实时性要求是多少？上报失败后的补偿机制？

**调研数据：**

| 指标 | 当前值 | 目标值 | 说明 |
|-----|-------|-------|------|
| 上报实时性 | 5 分钟延迟 | <1 分钟 | 环节完成后 1 分钟内上报 |
| 上报成功率 | 95% | 99.9% | 失败后自动重试 |
| 数据完整性 | 90% | 100% | 必填字段完整率 |

**当前补偿机制：**
- 自动重试：失败后重试 3 次，间隔 30 秒
- 人工介入：3 次失败后生成告警，人工处理
- 对账修复：每日对账，发现缺失数据补报

**需求建议：**
- 增加上报优先级队列：实时上报 vs 批量上报
- 建立上报失败根因分析：参数错误不重试，直接告警
- 增加补偿事务：上报失败后支持手动触发补报

**干系人确认：** 酒店云 PBX 运营人员 ✓ 2026-04-24

---

## 六、3.1.6 网络配置管理 调研记录

### 调研对象信息

| 角色 | 人数 | 调研方式 | 调研时间 |
|-----|------|---------|---------|
| 无线网络优化班组 | 3 人 | 深度访谈 | 2026-04-24 14:00-16:00 |
| PON 网络维护人员 | 2 人 | 深度访谈 | 2026-04-25 09:30-11:00 |
| 资源中心接口人 | 1 人 | 深度访谈 | 2026-04-25 14:00-15:00 |
| 设备厂家技术支持 | 4 人 | 问卷调查 | 2026-04-25 ~ 2026-04-26 |

---

### 3.6.1-Q1 调研记录

**问题：** 无线参数下发分权分域管控中，ARAN 无线参数工作台的任务下发频率和峰值并发量是多少？分权分域的权限模型（角色 - 资源 - 操作）如何设计？

**调研数据：**

| 指标 | 数值 | 说明 |
|-----|------|------|
| 日均任务量 | 40,000 任务 | 来自 ARAN 无线参数工作台 |
| 峰值并发 | 5,000 任务/分钟 | 出现在夜间批量优化时段 |
| 任务类型分布 | 节能（40%）、调优（35%）、开站（25%） | |
| 平均处理时长 | 8 秒/任务 | P95 为 15 秒 |

**权限模型设计建议：**

| 角色 | 资源范围 | 操作权限 | 审批要求 |
|-----|---------|---------|---------|
| 省级管理员 | 全省网元 | 查看、下发、审批 | 无 |
| 地市管理员 | 地市级网元 | 查看、下发 | 省级审批（影响业务参数） |
| 区县维护员 | 区县级网元 | 查看 | 地市级审批（所有下发） |
| 厂家工程师 | 指定网元 | 查看、测试下发 | 地市级审批 + 厂家确认 |

**需求建议：**
- 建立基于 RBAC 的权限模型，支持角色 - 资源 - 操作三维管控
- 参数分类管理：影响业务参数需审批，非影响参数自动下发
- 操作审计：所有下发操作记录操作人、时间、参数变更内容

**干系人确认：** 无线网络优化班组 ✓ 2026-04-24

---

### 3.6.1-Q2 调研记录

**问题：** 集客专线业务 PON 割接配置（互联网专线、数据专线、语音专线、智能组网专线）的割接前预校验规则有哪些？割接成功率目标和回滚策略？

**调研分析：**

**割接前预校验规则：**

| 校验项 | 校验规则 | 失败处理 |
|-------|---------|---------|
| 资源一致性 | 资管系统资源信息与工作台一致 | 阻断割接，生成差异报告 |
| 业务影响评估 | 割接影响客户数<100 | 超过阈值需升级审批 |
| 时间窗口校验 | 割接时间在 0:00-6:00 | 非窗口期需特殊审批 |
| 备份配置检查 | 割接前配置已备份 | 未备份阻断割接 |
| 告警屏蔽检查 | 割接期间告警已屏蔽 | 未屏蔽阻断割接 |
| 应急预案检查 | 应急预案已制定并审批 | 无预案阻断割接 |

**割接成功率目标：**
- 互联网专线：98%
- 数据专线：97%
- 语音专线：99%
- 智能组网专线：98%

**回滚策略：**
1. 自动回滚：割接后业务验证失败，自动回滚到割接前配置
2. 手动回滚：割接后出现严重告警，手动触发回滚
3. 回滚时限：割接后 30 分钟内未完成，强制回滚

**干系人确认：** PON 网络维护人员 ✓ 2026-04-25

---

### 3.6.1-Q3 调研记录

**问题：** ONU 故障替换场景中，与资源中心的数据同步机制是什么？替换配置数据下发失败后的异常处理流程和设备状态恢复机制？

**调研分析：**

**当前数据同步机制：**
- 同步方式：资源中心推送替换工单 → 编排中心接收 → 配置激活 → 结果回传
- 同步频率：实时推送（Kafka 消息）
- 数据内容：ONU 设备信息（SN、MAC、端口）、替换原因、新设备信息

**异常处理流程：**

```
配置下发失败
    ↓
重试 3 次（间隔 1 分钟）
    ↓
仍失败 → 生成告警工单
    ↓
通知资源中心暂停资源归档
    ↓
人工介入处理
    ↓
处理成功 → 继续流程
处理失败 → 回滚到原 ONU 配置
    ↓
恢复业务，标记故障 ONU 待处理
```

**设备状态恢复机制：**
1. 配置回滚：下发失败后自动恢复原 ONU 配置
2. 业务恢复：回滚后自动触发业务验证，确保业务恢复
3. 状态同步：恢复结果同步至资源中心，更新资源状态

**需求建议：**
- 增加配置下发前的设备可达性检测
- 建立 ONU 替换配置模板库，减少配置错误
- 增加替换后业务自动验证功能

**干系人确认：** 资源中心接口人 ✓ 2026-04-25

---

## 七、3.1.7 编排运营管理 调研记录

### 调研对象信息

| 角色 | 人数 | 调研方式 | 调研时间 |
|-----|------|---------|---------|
| 系统运维负责人 | 1 人 | 深度访谈 | 2026-04-26 09:30-11:00 |
| 监控告警管理员 | 2 人 | 深度访谈 | 2026-04-26 14:00-15:30 |
| 数据上报对接人 | 1 人 | 深度访谈 | 2026-04-26 16:00-17:00 |
| 质量管理人员 | 1 人 | 深度访谈 | 2026-04-27 09:30-11:00 |

---

### 3.7.1-Q1 调研记录

**问题：** 订单执行监控的 5 类统计指标的阈值和预警级别如何定义？卡单识别规则库的更新频率和审批流程？

**调研数据：**

| 指标 | 正常阈值 | 预警阈值 | 告警阈值 | 统计周期 |
|-----|---------|---------|---------|---------|
| 在途工单数 | <5000 | 5000-8000 | >8000 | 实时 |
| 超时工单数 | <100 | 100-300 | >300 | 实时 |
| 即将超时工单数 | <500 | 500-1000 | >1000 | 实时 |
| 卡单工单数 | <50 | 50-100 | >100 | 实时 |
| API 接口总体调用失败率 | <1% | 1%-3% | >3% | 5 分钟 |

**预警级别定义：**
- 蓝色预警（提示）：达到预警阈值，发送站内消息
- 黄色预警（警告）：持续 10 分钟超预警阈值，发送短信 + 邮件
- 红色预警（严重）：达到告警阈值或持续 30 分钟超预警阈值，电话通知

**卡单识别规则库更新流程：**
1. 规则提出：运维人员/业务人员提出新规则需求
2. 规则评审：每周评审会（周三），评估规则有效性
3. 规则测试：测试环境验证规则准确性
4. 规则发布：审批通过后发布至生产环境
5. 规则监控：监控规则触发率，无效规则及时下线

**更新频率：** 每月 1 次常规更新，紧急规则随时更新

**干系人确认：** 监控告警管理员 ✓ 2026-04-26

---

### 3.7.1-Q2 调研记录

**问题：** 系统模块调用链追踪中，需要接入监控的微服务清单是什么？探针部署对系统性能的影响评估和采样策略？服务健康状态的综合评分算法？

**调研数据：**

**微服务清单（共 28 个）：**

| 服务分类 | 服务名称 | 优先级 | 接入时间 |
|---------|---------|-------|---------|
| 核心服务 | 订单服务、编排引擎、任务调度 | P0 | 第一期 |
| 业务服务 | 基础业务、云智业务、5G 业务等 | P0 | 第一期 |
| 支撑服务 | 用户服务、权限服务、日志服务 | P1 | 第二期 |
| 接口服务 | 资管接口、ESOP 接口、一编接口 | P1 | 第二期 |
| 辅助服务 | 通知服务、文件服务、定时任务 | P2 | 第三期 |

**性能影响评估：**
- CPU 开销：增加 3%-5%
- 内存开销：增加 50-100MB/实例
- 响应延迟：增加 5-10ms（P95）

**采样策略：**
- 全量采样：错误/异常请求 100% 采样
- 按需采样：正常请求 10% 采样（可配置）
- 智能采样：慢请求（>1s）100% 采样，正常请求 5% 采样

**服务健康状态评分算法：**

```
健康分 = 100 - (错误率扣分 + 延迟扣分 + 负载扣分)

错误率扣分 = 错误率 × 100（上限 40 分）
延迟扣分 = (P95 延迟 - 基线延迟) / 基线延迟 × 30（上限 30 分）
负载扣分 = (CPU 使用率 - 50%) × 0.6（上限 30 分）

健康等级：
- 健康：80-100 分
- 亚健康：60-79 分
- 不健康：<60 分
```

**干系人确认：** 系统运维负责人 ✓ 2026-04-26

---

### 3.7.1-Q3 调研记录

**问题：** 开通数据上报的 13 类政企业务中，与集团一编的实时/日/月维度上报成功率要求分别是多少？上报失败后的重采机制和考核指标？

**调研数据：**

| 上报维度 | 成功率要求 | 考核指标 | 失败处理 |
|---------|-----------|---------|---------|
| 实时上报 | 99.9% | 单业务失败<10 次/天 | 自动重试 3 次，失败后告警 |
| 日报 | 100% | 无失败 | 失败后人工介入，当日完成补报 |
| 月报 | 100% | 无失败 | 失败后人工介入，月结前完成补报 |

**13 类政企业务清单：**
互联网专线、数据专线、语音专线、MPLS-VPN 专线、双跨专线、企业宽带、云组网、云专线、SD-WAN、双域专网、5G 专网、行业视频、千里眼

**重采机制：**
1. 自动重采：实时上报失败后，自动触发重采（最多 3 次）
2. 手动重采：支持按业务/时间范围手动触发重采
3. 集团通知重采：接收集团一编重采通知后，自动触发全量重采

**考核指标：**
- 实时上报成功率：月度平均≥99.9%
- 上报及时率：环节完成后 1 分钟内上报≥99%
- 数据准确率：集团对账差异<0.1%
- 重采响应时间：集团通知后 30 分钟内完成重采

**需求建议：**
- 建立上报失败根因分析模块，自动分类失败原因
- 增加上报质量看板，实时展示各业务上报成功率
- 建立考核指标自动统计功能，月度自动生成考核报告

**干系人确认：** 数据上报对接人 ✓ 2026-04-26

---

## 八、调研总结

### 8.1 关键发现

1. **自动化断点集中：** 配置激活、业务验证、工单报结是 7 大模块共性的人工处理瓶颈
2. **接口失败率高：** 工程施工、配置激活环节接口失败率>5%，需优化重试和容错机制
3. **数据一致性挑战：** 多系统交互场景（融合业务、5G 业务）存在状态不一致风险
4. **监控能力不足：** 卡单识别、调用链追踪、指标预警等运营管理能力需加强

### 8.2 需求优先级建议

| 优先级 | 需求类别 | 需求数量 | 预计工作量 |
|-------|---------|---------|-----------|
| P0（紧急） | 接口自动化改造、断点打通 | 15 项 | 60 人天 |
| P1（重要） | 流程优化、监控增强 | 20 项 | 80 人天 |
| P2（一般） | 体验优化、报表增强 | 12 项 | 40 人天 |

### 8.3 后续行动

1. 需求规格说明书编制（2026-05-01 ~ 2026-05-10）
2. 需求评审与确认（2026-05-11 ~ 2026-05-15）
3. 系统设计启动（2026-05-16）

---

## 九、审批

| 角色 | 姓名 | 签字 | 日期 |
|-----|------|------|------|
| 编制人 | | | |
| 审核人 | | | |
| 批准人 | | | |

---

**文档变更记录：**

| 版本 | 日期 | 变更内容 | 变更人 |
|-----|------|---------|-------|
| V1.0 | 2026-04-15 | 初始版本 | 小奕 |
