需求描述
对采集回来的网页中的文本或WORD文档用机器学习的方式实现自然语言分析并能自动进行数据清洗并按给定的分类标准进行分类,准确率不低于95%。
1.数据分类功能:
a.甲方提供专业相关数据,并设定分类。乙方需根据甲方提供的数据通过机器学习方式分析数据,得出其对应的分类。其中同一条数据可能属于多种分类,那么该机器学习软件同样能得出其同时属于多个分类(如果只能得出一种则属于分类错误)。
b.当甲方要求的数据分类需要改变时,乙方须单独提供本次开发软件的分类管理权限,方便甲方快速新增、删除、或调整分类要求。甲方重新设置分类标准并配套数据后,本软件可以快速的通过机器学习重新自动更新模型数据,当后续出现与此匹配的新的数据时必须能自动符合新分类或者调整后的分类标准,且识别正确率不低于之前的分类类型数据。
c.模型反馈功能,当机器学习的数据分类无法精确分类或出现结果错误时,能通过接口http api方式,可以由甲方手工输入正确的结果并让机器学习来自动调整系统参数来提高后续识别率。
d. 分类方式详见附件,验收标准按后续条目。
2.关键字**功能:
a.甲方提供专业相关数据中可能还存在许多关键字段,本次开发软件需要通过机器学习方式自动**出甲方所需要的关键字段,同时也要能够识别非要求的一些其他的关键字段,作为推荐数据供甲方参考。(样本及关键字见附件)
b. 关键字**时,需要做自然语言断句分析,应做到分词准确,分词后的关键字是纯净的数据,不包含助词,连接词,标点符号等无效数据。
c.关键字**功能,本次开发的软件应支持可配置,甲方可以方便的调整配置参数,新增、删除或修改关键字,同时能配合新旧数据,快速完成机器学习更新模型数据,达到自动获取新的关键字**目标。
d.模型反馈功能,当机器学习**的关键字输出结果错误时,能通过接口http api方式,由甲方手工输入正确的结果,让机器学习自动调整参数来提高后续识别率。
e.准确率验收标准,见后续条目。