|
电子科技大学
电子科技大学 教育部
  • 31 高校采购信息
  • 524 科技成果项目
  • 74 创新创业项目
  • 0 高校项目需求

多属性文本自适应标注系统

2021-04-10 00:00:00
云上高博会 https://heec.cahe.edu.cn
关键词: 自适应标注
点击收藏
所属领域:
电子信息
项目成果/简介:

成果描述:

多属性文本自适应系 统主要实现对每个未 知属性的通信实体进 行属性标注的功能。 主要分为两个过程, 即训练过程和预测过 程。 在训练过程中,系统 根据用户提供的已经 具有属性的数据集、 用户选择的分类算法 所对应的参数进行训 练,得到训练模型。 在预测过程中,系统 根据用户选择的训练 模型对未知属性的数 据集中的每个实体进 行属性标注,并得到 标注过属性的数据集 。(注:在训练过程 中,用户可以使用在 训练数据集上进行交 叉验证的方法获得在 固定参数和分类算法 下模型对未知样本预 测的性能的大致估计 。)

市场前景分析:

随着互联网的迅速发 展,Web页面上的信 息量呈指数级急剧增 长,如何快速、准确 地从海量数据中抽取 出用户真正需要的信 息已经成为互联网对 科研工作者提出的严 峻挑战。 属性标注能够将网页 非结构化文本内容转 化为结构化的属性数 据,方便用户查询和 进一步分析使用;其 作为信息抽取的关键 一步,对提高信息抽 取的性能方面也具有 重要意义。

与同类成果相比的优势分析:

包括训练和预测两个 过程,实现对不同数 据集的自适应性属性 标注; 特征选择功能,可以 在训练模型时,选择 出对区分数据类别更 有用的特征词,这样 ,可以降低实体所对 应属性的维度,从而 ,减少占用的内容空 间,提高计算效率; 交叉验证功能,帮助 我们在训练阶段,就 可以了解参数和算法 的选择,对属性标注 时准确性的影响; 生成报告功能,可以 在训练阶段的交叉验 证结束后,产生一个 训练阶段的报告,帮 助用户更好地记录实 验数据、参数、时间 和准确性等信息; 评估功能,比较模型 标注结果与样本真实 标签的一致性、差异 性,以评价一个模型 的好坏。

项目阶段:
产业化应用
会员登录可查看 合作方式、专利情况及联系方式

扫码关注,查看更多科技成果

取消