大数据语义:灵玖软件智能汉语分词系统

3/7/2017来源:SQL技巧人气:458

  近年来,随着国民经济信息化的不断发展以及Internet的普及,中文信息处理技术的应用日益广泛。由于中文文本的按句连写的,词间无间隙,因而中文信息处理的首要问题是词的切割问题,智能自动分词已成为中文信息处理的一个重要课题。

  灵玖软件智能汉语分词系统是自然语言处理的基础与关键。公司在多年研究工作积累的基础上,研制出了NLPIR分词系统中的智能功能,主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。

  智能汉语分词系统主要特点:

(1)自动索引:可以用机器抽取或赋予索引词,索引词是指与文本信息主题相符的或密切相关的词语,也是文本信息的关键词和主题词。所以中文文本自动索引中离不开词这个基本单元。

(2)自动分类:可以按照计算机系统一定的实体或对象进行分类,包括建立分类体系及自动更新,主要是文档聚类和关键词聚类等领域。自动聚类由计算机系统按照被考察对象的内部或外部特征,根据一定的要求(如类别的数量限制,同类对象的亲近程度等等),将相近、相似或相同特征的对象聚合在一起的过程。

(3)信息智能检索:可以对信息按照一定的方式组织、存储,智能的从海量的大数据中找到满足用户信息需求的知识,尤其指对非结构化或半结构化文本的检索(注:在这一点上,信息检索与基于数据库的检索不同。在数据库领域,数据之间有特定关系并按照这种关系进行结构化存储。检索时可按照这种逻辑关系直接找到需要的信息),其主要目的是从海量文档集中高效检索出与用户需求相关的文档,其研究涉及海量信息采集、表示、组织、内容分析与知识挖掘、索引、访问、表现等方面。

(4)信息智能抽取:可以从文档中所寻到所需的信息应用,可以抽取到更精确的信息表达。并且对中英文混合词、新词识别能够自动识别进行分词功能。同时,可以单条导入用户词典,也可以批量导入用户词典。如可以定“举报信 敏感点”,其中举报信是用户词,敏感点是用户自定义的词性标记。

智能汉语分词系统可以对汉语语言进行词性的自动标注,它能够真正理解中文,自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”,一级词性标注准确率接近99%,具备准确率高、速度快、可适应性强等优势。