CAMS常见业务问题汇编V1.0

3/1/2008来源:华为网络人气:8808

CAMS常见业务问题汇编V1.0. 1 1、Cams双机切换后,备机Cams服务无法启动导致重新切回主机... 2 2、Cams双机切换后,业务无法正常运行... 2 3、Cams双机采用二层VPN无法建立隧道... 2 4、WinXP如何启用自带802.1x客户端... 2 5、MA5200与Cams双机配合的局限... 2 6、Cams开户时帐号、用户名与密码问题... 3 7、如何在Cams上查询Portal业务端口... 3 8、Cams按流量计费问题... 3 9、Cams查询用户数据流量异常问题... 3 10、Cams重新安装,如何确保数据库用户数据不丢失... 3 11、Cams用户治理中无法查询到用户... 3 12、误配置了Cams的ACL,导致Web治理前台无法登录... 4 13、LAN接入用户经常大面积无故掉线问题... 4 14、Cams中修改所有帐号用户的开户日期... 4 15、HP ML350 G3服务器安装双网卡,需要修改Bios配置,否则安装完linux后,可能出现网卡不能正常工作    4 16、Radius报文中涉及ip地址属性的说明... 4 17、Cams治理前台查看系统状况,显示与Oracle连接不正常,则需重新启动tomcat4. 5 18、Cams的QoS配置特性说明... 5 19、Cams无法强制LAN接入用户下线问题... 5 20、Cams的V100R001版本不支持分档计费,V100R002开始支持... 5 21、Cams运行一段时间后死机问题... 5 22、Exp命令备份Oracle数据库的问题... 6 23、开帐号用户时为何总提示要重新登录?... 6 24、日志中的“Fail to get PRocess function point”问题... 6 25、IP地址与帐号绑定时无法通过认证问题... 6 26、Portal业务问题... 7 1、目前仅MA5200可与Cams配合实现Portal业务... 7 2、Portal与Cams平台装在同一台机器上,无法正确弹出重定向认证页面... 7 3、使用Portal时Web强制到Cams的前台治理界面... 7 4、为什么Web强制页面总是“宽带业务无法使用”?... 7 5、老版本Cams在Web重定向时无法打开Portal认证页面... 7 6、Portal 2.0基本交互过程分析... 7 附录一 Portal消息中ErrorID的含义... 9 附录二 MA5200F做Portal业务的典型配置... 10  

CAMS常见业务问题汇编V1.0

说明:本汇编只针对Cams业务,由Linux或Oracle安装配置造成的故障问题不在此文范围内。另外有个好消息,明年Cams可能移植到Windows平台上。

1、Cams双机切换后,备机Cams服务无法启动导致重新切回主机

这是备机Cams安装配置问题,可能是备机/etc/init.d目录下的Camsd文件没有可执行权限(ls ?l时应是rwx-rx-rx),或oracle和IP资源配置有问题,因为Cams服务的启动依靠这两个资源。可以先分别切换oracle和IP资源是否成功来初步定位问题。

2、Cams双机切换后,业务无法正常运行

这个问题比较棘手,大部分是因为双机切换后,Cams虚IP地址对应的MAC地址发生变化,需要交换机设备及时更新ARP表项。Cams的双机软件Lifekeeper在切换时会发出一免费ARP更新报文,该报文的目的IP是本子网最后一个IP地址,我司交换机认为该更新报文非法,丢弃之,导致ARP表项不能及时更新,只能等待老化。

3、Cams双机采用二层VPN无法建立隧道


Cams双机系统+NAS组件,3680路由器采用L2TP的VPN接入认证。路由器发code=1的radius包目的地址是Cams双机虚地址,而Cams发出code=2的回包源地址是主Cams服务器地址,导致认证无法通过,VPN隧道不能建立。

4、3680E与Cams对接实现L2TP VPN业务,用户正常下线后,Cams显示仍然在线

Cams记录用户的一次正常上、下线,是通过Radius Code=4的报文里acct-session-id唯一标识的。同一用户上下线时,3680E所发两个Code=4的报文中,acct-session-id应该是相同且唯一的。通过查看Cams调试级别的用户日志,发现3680E所发的acct-session-id值为空,导致Cams无法识别每个用户,因此该用户虽然下线,但Cams仍然显示其在线。此问题在3680E早期版本和部分新版本中存在。

5、WinXP如何启用自带802.1x客户端

MS的Win XP自带802.1x客户端,在DHCP获得IP时,可与Cams配合实现LAN接入业务。Cams+MA5200方式:XP的”网络属性”里选中“启动IEEE 802.1x”,以及“md5质询”,再选中下面的“当计算机信息可用时身份验证为计算机”(否则会出现Windows无法登录的错误)。使用802.1x业务时,将XP的网卡禁用再启用,即可看到右下角提示信息“单击此处输入用户名和密码”。 MA5200需要配置dot1x的policy,6320版本的具体命令是: vlan port <vlan id> <num> dot1x-policy eap-dhcp 对于启用802.1x的交换机,需要在system-view下配置dot1x dhcp-launch。 假如客户为静态IP地址,则无法使用XP自带的客户端。因为按国标,交换机不主动发EAP-Request,而应由用户方发起认证。

6、MA5200与Cams双机配合的局限

MA5200与Cams双机配合,MA5200上必须分别配置主备机两机IP地址作为主、从认证计费服务器地址,不能配置双机虚地址做认证,因为MA5200分析了Radius回包的源地址。而一般交换机不需要做此配置。

7、Cams开户时帐号、用户名与密码问题

帐号用户的业务名和用户名是有区别的,开户时需要分别指定业务名和用户名。业务名是用户上网时需要认证的名字,用户名是用户登录自助服务界面时需要使用的名字。 业务名与用户名不区分大小写,两者密码缺省是一样的,也可以分别配置密码。

8、如何在Cams上查询Portal业务端口

Portal业务端口为50100,在Cams主机上有两条命令可以查询: netstat -algrep 50100 lsof -i udpgrep 50100

9、Cams按流量计费问题

Cams按流量计费,只有MA5200实现了按用户连接统计,华为3Com各类交换机都是按端口统计,所以假如Cams与交换机配合按流量计费,只能一个用户接一个端口,否则统计接同一端口的所有用户流量都是该端口的总流量。 因此若按流量计费,务必使用MA5200+Cams方式。

10、Cams查询用户数据流量异常问题

Cams系统中查询的用户流量数据往往会很离谱,这是因为Cams查询用户时的流量统计信息与具体设备有关。Cams治理前台“系统治理/系统参数/LAN接入业务参数”中,“流量统计单位”默认是1024字节,需要根据具体设备调整。比如3026E,使用huawei或标准radius时,发送的流量信息以字节为单位,该参数就要改成1字节。否则用户流量会显示的很大(是实际的1024倍)。

11、Cams重新安装,如何确保数据库用户数据不丢失

Cams重新安装不损失数据库用户数据,在安装平台组件的时候必须采用Custom定制安装,而不能选择Full安装方式。且不能选定制安装中的第四项(执行数据库脚本)。 另外,假如采取这种方式重新安装Cams,无法避免30天临时License使用期限的问题。即Cams临时License在30天过期后,这样重新安装不能再使用30天。

12、Cams用户治理中无法查询到用户

Cams用户治理里查询用户,需要注重时间段限制,假如碰到客户反映无法查询到某用户时,就调整查询起始时间。Cams中缺省为一年间隔。

13、误配置了Cams的ACL,导致Web治理前台无法登录

在Cams主机上,以Oracle用户登录,执行sqlplus cams/cams@cams,在SQL>提示符下执行: SQL> delete from tbl_acl; SQL> commit; 当Cams的ACL配置错误,可采用这个办法来清除ACL。注重SQL语句后带分号。

14、LAN接入用户经常大面积无故掉线问题

若有802.1x的LAN接入用户大面积掉线故障时,可检查Cams与LAN接入设备的配置。在Cams“系统治理/系统参数/公用系统参数”中设置的“老化时间间隔”必须大于设备上设置的计费更新包的时间间隔。老化时间间隔缺省为30分钟。 这是因为Cams要根据设备发来的计费更新报文(code=4)来判定用户是否在线,假如在老化时间内没收到计费更新报文,就认为该用户掉线,于是强制用户下线。

15、Cams中修改所有帐号用户的开户日期

有些客户希望所有帐号用户的开户日期能够统一到一个时间点上,此时可直接对数据库进行操作,以Oracle用户登录系统后: sqlplus cams/cams@cams SQL>update tbl_user set create_time=to_date('2003-09-01','YYYY-MM-DD'); SQL>commit; SQL>exit 这样就更改所有帐号用户的开户日期为2003年9月1号。

16、HP ML350 G3服务器安装双网卡,需要修改Bios配置,否则安装完Linux后,可能出现网卡不能正常工作

17、Radius报文中涉及IP地址属性的说明


Nas-ip-addr属性记录的是发起认证请求的设备地址,Framed-ip-addr是接入用户的IP地址,格式为9位10进制数字。在换算成IP地址时,先转换为16进制,再拆分成点分十进制的IP地址即可。

18、Cams治理前台查看系统状况,显示与Oracle连接不正常,则需重新启动tomcat4

root用户执行: # tomcat4 stop # tomcat4 start

19、Cams的QoS配置特性说明

Cams“业务治理/LAN接入业务”中的QoS配置,需要设备侧配合支持,我司交换机3026E和3526E均支持QoS配置,但只支持上行限速,粒度为1M,MA5200粒度可到64K。 Cams中先指定QoS费率(1024K=1M),交换机侧需配置Radius协议类型为huawei(使用Huawei扩展Radius协议)。

20、Cams无法强制LAN接入用户下线问题

Cams无法强制LAN接入用户下线,与Huawei扩展Radius协议有关。只要不是非凡老的交换机版本,在radius-server host(scheme) XXX模式下配置server-type huawei(或server-type portal,对于5200E的新命令行版本只能是portal)命令即可。 Cams强制下线的报文是扩展Radius协议定义的。Cams给设备发code=20的报文,设备回计费结束报文code=4,然后对用户执行下线操作。任何不支持Huawei Radius +1.1协议的设备都无法实现强制下线功能,如ISN8850。

21、Cams的V100R001版本不支持分档计费,V100R002开始支持

分档计费的典型实例:某包月限时20小时的用户,在当月使用完20小时后,仍可继续使用,但费率重新计算。

22、Cams运行一段时间后死机问题

该故障现象比较常见,在排除网络故障、计算机硬件故障的可能性后,90%都是由于安装Oracle8.1.7.4补丁不正确所致。打8174补丁虽然比较复杂,但假如没有严格按指导书操作,则会在运行中出现内存溢出的问题,导致Cams系统死机。 解决此问题的方法: 1、     停掉Cams服务、停掉数据库,使用exp全备份数据库数据; 2、     删除Cams安装目录,如/root/cams; 3、     停掉数据库的监听(lsnrctl stop),重新打8174补丁; 4、     重新安装Cams。

23、Exp命令备份Oracle数据库的问题

以Oracle用户执行exp备份的时候提示: exp-00056:oracle error 12541 encountered ora-12541:tns:no listener exp-00000:export terminate unsUCcessful 那么就需要启动监听lsnrctl start,数据库不需要启动。 exp-00008:oracle error 904 encountered ora-00904:invalid column name exp-00000:export terminate unsuccessful 说明安装8174补丁时没有严格按指导书操作,没执行四个SQL脚本文件。需要重新安装8174的补丁。

24、开帐号用户时为何总提示要重新登录?

通过Cams前台Web治理系统开户时,增加帐号用户后,申请LAN接入业务,无法弹出申请业务界面,而直接提示“操作失败,操作员需要重新登录”。这是因为IE浏览器安全级别配置过高,在IE的“工具/Internet选项/安全”,将“该区域的安全级别”设为默认级别即可。

25、日志中的“Fail to get process function point”问题

这是比较典型的故障现象,Cams可以收到code=1的Radius包,但用户无法通过认证。在Cams日志中记录:2003-11-07 15:46:56 : [ERROR   (1)] : PT[4]: Fail to get process function point, maybe you don't have right to use this service! 原因是Cams的配置文件目录,通常是/root/cams/etc目录下service.conf文件被清空或错误配置。例如对于NAS业务,需要补充上: SERVICE NAS /root/cams/libs/libprocnas.so ProcFuncCfg 注重大小写,并按实际Cams安装路径和业务恢复该文件即可。

26、IP地址与帐号绑定时无法通过认证问题

在做IP地址与帐号绑定的功能时,用户无法通过认证,在设备上观察Radius报文,发现设备发出code=1的报文后,Cams回应的code=3的报文里有: [18 Reply-Message   ] [57] [Bound IP-Address is inconsistent with the accessing IP!]
[hw-26 Connect_ID   ] [6] [11]  *0.533754 S3526E RDS/8/DEBUG:Slot=1;RejectMsg= [Bound IP-Address is inconsistent with the accessing IP!] 意思是配置绑定的IP地址与Cams接收到的客户访问的IP地址不一致。 我们检查code=1的报文里Framed-ip-addr是否正确,该属性携带客户IP地址信息,假如没有该属性,则很可能是802.1x客户端里没有选中要上传IP地址。假如该属性不正确,则需要检查客户的IP地址是否是配置绑定的IP。

27、运行userinfo-linux文件,提示需要java runtime

为申请License而执行userinfo-linux文件采集系统信息时,提示需要安装java runtime问题。假如没有安装Cams,则可能出现这个问题,需要设置环境变量,在/etc/profile文件中加入一行: export JAVA_HOME=/usr/java/j2sdk1.4.0/ Linux系统中可能不是j2sdk1.4.0目录名,根据实际目录名修改即可。

28、Portal业务问题

1、目前仅MA5200可与Cams配合实现Portal业务

2、Portal与Cams平台装在同一台机器上,无法正确弹出重定向认证页面

1.00-0150版本之后,Portal组件分为Portal Server和Portal Client,假如与平台装在同一台机器上,则必须先安装Cams平台组件,再安装Portal Server,最后安装Portal Client。由于Cams平台包含了tomcat4,所以在安装Portal Client的时候可选择不安装tomcat4。

3、使用Portal时Web强制到Cams的前台治理界面

使用Portal业务时强制到Cams的Web治理页面,当Cams与Portal合装在一台机器上的时候可能出现这个问题,主要是安装Portal的顺序错误导致。解决办法,先停止tomcat4,再到/var/tomcat4/work/目录下删除所有文件,重新启动tomcat4即可。 /var/tomcat4/work/目录存放Portal的临时文件,假如安装顺序错误,该目录下文件始终生效导致业务不正常。

4、为什么Web强制页面总是“宽带业务无法使用”?

Portal 2.0业务假如Web重定向后提示小窗口:宽带业务无法使用。一般都是Cams中Portal业务端口组信息配置有错误。配置原则是: 1、     当只有一个端口组时可配置起始端口到终止端口为0-z; 2、     但有多个组的时候,要严格按规则配置,规则为<设备名>-VLAN-<槽位号>-<VLAN ID>@VLAN,例如MA5200F-VLAN-02-0010@VLAN,槽位号是两位数字,VLAN ID是4位数字。 3、     起始端口与终止端口这种配置只有Portal 2.0支持。 4、     Portal服务器的log里Code : CODE_PP_DEVICE_REQUEST的报文中The attribute content 字段是用户客户端的IP地址,该地址应该在Cams配置的Portal IP地址组里,否则强制Web后页面也是“宽带业务无法使用”。

5、老版本Cams在Web重定向时无法打开Portal认证页面

1.00-0150版本之前的Cams做Portal业务,需要修改/var/tomcat4/conf/server.xml文件,将其中Base="ROOT"改为Base=“portal“。否则无法打开Portal认证页面。

6、Portal 2.0基本交互过程分析

在实际使用中,发现Portal业务不正常时,我们需要打开portal调试级别日志或MA5200的debug portal信息来判定故障所在。因此有必要了解Portal的工作过程。 Cams配置Portal本地Challenge为“否“:  
Seq Source Target Code内容 说明 1 Portal协议模块 Tomcat CODE_PP_DEVICE_REQUEST 携带客户IP地址信息 2 Tomcat Portal协议模块 CODE_PP_DEVICE_RESPONSE   3 Portal协议模块 Tomcat CODE_PP_DOMAIN_REQUEST   4 Cams MA5200 REQ_INFO 请求设备发送端口信息 5 MA5200 Cams ACK_INFO 在attribute content中携带端口信息 6 Cams MA5200 REQ_CHALLENGE 请求设备发CHAP验证字 7 MA5200 Cams ACK_CHALLENGE 应答 8 Cams MA5200 REQ_AUTH 请求设备发认证报文
随后MA5200会将Radius Code=1的报文发来,开始Radius交互过程。
u        假如在CODE_PP_DEVICE_RESPONSE后,没有REQ_INFO过程,则很可能是Portal用户的IP地址不在Portal配置的IP地址池范围内,可检查DEVICE_REQUEST报文中attribute content属性所携带的客户IP地址,此时ErrorID=1。 u        假如Cams发REQ_INFO后没收到ACK_INFO消息,说明设备侧配置错误,可检查Portal服务器地址和端口等配置。 u        假如Cams收到ACK_INFO后没发REQ_CHALLENGE,说明Cams上配置端口组时,起始与终止端口信息与ACK_INFO中的不一致,当然也有可能Cams的Portal配置本地challenge为“是“。 u        假如Cams发出REQ_INFO后没收到MA5200回应的ACK_INFO消息,很可能是通信端口配置错误。Cams监听Portal消息的端口是50100,而MA5200的监听端口是2000。 u        一般Cams与MA5200对接Portal业务,“本地challenge”配置为“否“,“快速认证”为“否”。 u        /etc/camsd/portal/log目录下记录了Portal协议交互过程,在出现问题后,可以将该日志采集出来分析,注重先打开Portal的调试级别日志。 当Cams配置Portal本地Challenge为“是“时,Cams收到ACK_INFO后,会直接发REQ_AUTH消息,通知设备开始Radius过程。 另外,以上这些报文中都有一个属性为ErrorID,该值正常情况下为0,异常时为非0数字,具体含义请参考附录一,从中也可大致判定故障原因。

附录一 Portal消息中ErrorID的含义

ErrorID(即ErrCode)在不同Portal报文中的含义不同,ErrorID 字段和 Type 字段一起表示一定的意义,长度为 1字节。具体定义为: 1、对于REQ_CHALLENGE(Type=1)、REQ_AUTH(Type=3)、AFF_ACK_AUTH(Type=7)、REQ_INFO (Type=9)、NTF_USERDISCOVER (Type=x0b)和  NTF_USERIPCHANGE (Type=0x0c)报文,ErrorID 字段无意义,其值为 0。 2、对于 ACK_CHALLENGE (Type=2)报文,ErrorID 有如下含义:
ErrCode 含义 0 BAS 设备通知 Portal Server,Challenge 请求成功 1 BAS 设备通知 Portal Server,Challenge 请求被拒绝 2 BAS 设备通知 Portal Server,此用户连接已经建立 3 BAS 设备通知 Portal Server,有一个用户正在认证过程中,请稍后再试 4 BAS 设备通知 Portal Server,此用户Challenge 请求失败(发生错误)
3、对于 ACK_AUTH(Type=4)报文,ErrCode 有如下含义:
ErrCode 含义 0 BAS 设备通知 Portal Server,用户认证成功 1 BAS 设备通知 Portal Server,用户认证请求被拒绝 2 BAS 设备通知 Portal Server,此用户连接已经建立 3 BAS 设备通知 Portal Server,有一个用户正在认证过程中,请稍后再试 4 BAS 设备通知 Portal Server,此用户认证请求失败
4、对于 REQ_LOGOUT(Type=5)报文,ErrCode 有如下含义:
ErrCode 含义 0 表示此报文是 Portal Server 发给 BAS 设备的请求下线报文 1 表示此报文是 Portal Server 没有收到 BAS 设备发来的对各种请求的响应报文,而定时器时间到(即超时)时由 Portal Server 发给 BAS 设备的报文
5、对于 ACK_LOGOUT(Type=6)报文,ErrCode 有如下含义:
ErrCode 含义 0 BAS 设备通知 Portal Server,此用户下线成功 1 BAS 设备通知 Portal Server,此用户下线被拒绝 2 BAS 设备通知 Portal Server,此用户下线失败(发生错误) 3 BAS 设备通知 Portal Server,此用户已经下线
6、对于 NTF_LOGOUT (Type=8)报文,ErrCode 有如下含义:
ErrCode 含义 0 BAS 通知 Portal Server,用户强制下线
7、对于 ACK_INFO (Type=0x0a)报文,ErrCode 有如下含义:
ErrCode 含义 0 处理成功,但不表示全部消息都被获取了,有多少信息被获得应通过属性来判定 1 功能不支持,表示MA5200设备不支持这一功能 2 消息处理失败,由于某种不可知原因,使处理失败,例如询问消息格式错误等

8、对于 AFF_NTF_USERIPCHAN (Type=x0d)报文,ErrCode 有如下含义:
ErrCode 含义 0 Portal Server 通知 BAS 设备,更新用户 IP 地址成功 1 Portal Server 通知 BAS 设备,更新用户 IP 地址失败
9、对于 ACK_NTF_LOGOUT (Type=0x0e)报文,ErrCode 有如下含义:
ErrCode 含义 0 Portal Server 通知 BAS 设备,用户 IP 下线成功

附录二 MA5200F做Portal业务的典型配置

MA5200典型配置实例。