高等教育领域数字化综合服务平台
云上高博会服务平台
高校科技成果转化对接服务平台
大学生创新创业服务平台
登录
|
注册
|
搜索
搜 索
综合
项目
产品
日期筛选:
一周内
一月内
一年内
不限
一种自动化
数据
挖掘
预处理方法
本发明公开了一种自动化数据挖掘预处理方法,其特征在于, 包括:建立数据库和预处理规则库,在该数据库中新建数据表且标准 化命名,将待预处理数据进行抽样后导入新建数据表中,同时对抽样 后的预处理数据的每一个字段的值进行数理统计;提取数据表的关键 字 A、B 和 C,在预处理规则库中查询是否存在这些关键字,如果不 存在则将数据表的关键字和所有字段添加到预处理规则库中,然后采 用分箱法和数据平滑法对所有预处理数据进行处理,以生成新的规则, 并将其添加到原有规则库中。本发明通过对预处理结果进行评分和反 馈,调整字段映射函数,提高预处理的质量。
华中科技大学
2021-04-11
医疗保险违规和欺诈行为的
数据
挖掘
平台
项目简介 “医疗保险违规和欺诈行为的数据挖掘平台”属计算机软件与其他学科交叉领域, 是数据挖掘技术在医疗保险业一个典型的应用。平台具备挖掘项目的自定义,使数据挖 掘过程直接面向业务问题,降低医疗保险业内部业务人员对医疗违规欺诈行为进行监管 的技术门槛。通过将业务问题关联的数据挖掘结构、对应的算法、关联参数、结果界定 规则及评估方法进行固化配置,降低了使用者在挖掘项目构建时的难度。通过对挖掘结 果的界定规则及评估,监管及执法提供了定量依据。通过自定义展示
江苏大学
2021-04-14
基于
大数据
的远程水质监测与分析
水是维系生态系统健康的重要因子,具有调节河川经流、发展灌溉、提供工业和饮用水源、繁衍水生生物、沟通航运、改善区域生态环境以及开发矿产等多种功能,在支撑经济社会发展和维持生态环境平衡中发挥了重要作用。水质监测是水资源保护中的基础性工作,对于污染源控制、环境规划具有重要意义和作用。我国一贯主张预防优先于治理的环境保护政策,在《国家中长期科学技术发展规划纲(2006-2020)》确定的16 个重大专项中,水专项是迄今为止我国资金投入总量最大的环境科研项目,投入逾百亿,旨在为中国水体污染控制与治理提供强有力的科技支撑。建立智能水质监测网络,加强水质监测能力,提升河湖管理水平,是水污染防治与水资源可持续利用的重要前提。 二、前期研究基础 项目组与联合环境技术(厦门)有限公司签署了合作课题“水环境远程监测云平台技术服务”,2017.9-2020.8,30万。利用无线网搭建水环境远程监测云平台,通过云端实时收集系统运行的过程数据,并进行统计分析,服务端和APP客户端实现实时查看数据和远程设备运行情况,并能远程控制设备启停等。 三、应用技术成果 项目组开发了膜系统远程监控维护系统(UE-MRTU),并于2017年12月部署应用在云南昆明的一个自来水厂。 四、合作企业 联合环境技术(厦门)有限公司于2006年6月成立,专业从事以膜法技术为核心的中水回用、固液分离、纯水制备、废水等项目的设计、研究与开发应用。作为中国最早的膜系统服务商,提供膜系统的设计、制造、安装;以及膜系统的污染检测、清洗维护、运营管理。联合环境技术公司的膜法水处理技术在工业、民用及商业领域得到广泛应用(如江苏某市政污水处理厂,福建某市政污水处理厂,外蒙古乌兰巴托某饮料厂污水处理项目和江苏某太阳能光电有限公司污水处理项目)。工业应用产品包括外压式中空纤维膜组件和浸入式膜组件,可应用于给水/污水处理、水回用、海水淡化、食品、制药、石油、化工、电力、生物分离及其它分离过程;家用/商用净水设备包括膜净水器或集成水净化系统;集装式一体式应急超滤设备等,成功运用于各个领域的水处理项目;扩展水生态系统综合项目,包括提供水生态修复、水环境监测及水务投资/运营。已获得十几项国家发明和实用新型专利授权,在远程监控方面也获得了多项软件著作权。
厦门大学
2021-04-11
基于医保系统
大数据
构建“癌症发病监测”模型
癌症是全球第二大死因,对人类的健康构成严重威胁。我国人口基数庞大,老龄化进程不断加快,癌症防控工作也面临巨大挑战。准确、实时的恶性肿瘤发病数据可为防控相关的政策制定、资源配置和科技项目实施与效果评估等提供重要依据。肿瘤发病数据的获得主要通过“肿瘤登记”实现,其中最理想的模式为“基于人群的肿瘤登记体系(Population-based Cancer Registry,PBCR)”。我国现行的肿瘤登记工作可追溯到上世纪50年代末60年代初。历经几十年发展,“从无到有”、“从弱到强”,为相关工作的开展提供了关键的基础数据。然而,受限于“基于监测哨点开展、定点医院人工填报”的主要形式,目前我国肿瘤发病登记工作的发展遇到挑战。其中主要包括:肿瘤登记点数量不足和分布不均衡;肿瘤登记数据深度和广度不足;很难在现有模式下建立真正覆盖全人群的肿瘤监测系统。同时,对上报数据的采集、补充、质控需要较长周期,导致我国肿瘤发病年报通常会滞后3年发布。河南省滑县与广东省汕头市合计在籍人口约700万人。近十年以来,各项医保系统的总参保比例分别稳定在99%及90%以上。两地区过去一直被认为是食管癌高发区,但目前尚无国家肿瘤登记系统覆盖,因此实际的癌症负担及食管癌发病水平仍不明确,无法有针对性地制定并实施肿瘤防控计划。过去十余年,柯杨教授课题组在我国太行山食管癌高发区开展了多项大规模前瞻性人群研究。在长期的队列随访工作中,课题组探索出利用“医保报销数据”追踪肿瘤新发病例的工作模式。经比较性研究评估,该模式对新发癌症病例捕捉的灵敏度高达96%,特异度接近100%[4]。在此基础上,该团队进一步与河南省滑县和广东省汕头市政府有关部门与医疗机构建立深度合作,在高度重视数据安全与隐私保护的基础上,创新性地基于医保系统的医疗费用报销与疾病诊断数据,建立了一套标准化的数据清理流程和质控标准,研发了医保系统数据挖掘的相关算法(已申报相关发明专利),实证性构建了南、北方两个试点地区的肿瘤发病监测系统。对当地全瘤种的癌症发病数据及其流行分布特征、时间趋势等进行了深入分析与报告,为两地区明确癌症疾病谱特征及相关负担、有针对性地建立并完善癌症防控工作策略提供了详实的数据。2012-2018年河南省滑县与广东省汕头市参保全人群的年龄分布 (高参保率及稳定、详实的人口分布数据使MIS-CASS实现“全人群覆盖”)2018年河南省滑县与广东省汕头市男、女性主要恶性肿瘤发病例数及发病率 (医保数据的“实时性”与“高质量”使MIS-CASS的发病数据报告延迟缩短至6个月)2014-2018年河南省滑县与广东省汕头市男、女性主要瘤种发病率变化趋势 (MIS-CASS敏锐地捕捉到了滑县开展乳腺癌筛查引起的发病率“突增”)2018年广东省汕头市食管癌发病率地域分布特征 (MIS-CASS报告显示,汕头市整体食管癌发病水平不高,但内部地域差异明显,地处东北、四面环海的南澳岛为高发区域,西南方向渐呈下降趋势)我国《“十三五”规划(2016~2020)》和《“健康中国2030”规划纲要》均提出,要推进健康大数据在各相关部门间的整合、共享、挖掘和应用。该项工作将医保系统创新性地与癌症发病监测工作相结合,建立了基于医保大数据监测癌症发病的MIS-CASS模式。经评估,该模式具有区域内全人群覆盖、数据质量高、报告延迟短、运维成本低等优点。在信息化与大数据时代背景下,为我国癌症及其他重大慢性非传染性疾病的监测与登记工作提供了有益经验和发展方向。
北京大学
2021-04-10
大数据
人工智能预测近视眼发展
利用十年百余万次的近视眼医学验光大数据,揭示出真实世界青少年近视眼发生、进展与稳定的规律。在此基础上,运用随机森林算法进行机器学习,建立人工智能预测系统,可对近视进展趋势进行个体化预测,3年内准确率达90%,10年内准确率达80%以上,也可提前8年有效预测高度近视,为近视眼的精准干预提供了科学依据。开发出一套人工智能云平台,提供高效的近视预测服务。通过访问智能平台,输入前后两次检查的年龄和度数(间隔至少一年),即可预知10年内的近视度数变化与高度近视风险。 中山眼科中心近年来对近视眼进行了系统性的研究,不断取得突破,产生了重大的社会影响和意义。
中山大学
2021-04-13
交互式
大数据
处理与分析技术
1.痛点问题 多年来,工业大数据领域大数据分析算法和模型都是基于大量代码实现,效率低,难以实现快速开发。同时,工业大数据处理分析模型处理过程多由多个算法通过一定的计算流程构成,计算流程复杂多变,迫切需要一款支持灵活定制和快速开发的处理分析技术来支持工业大数据处理分析。 2.解决方案 清华数为交互式大数据处理与分析技术针对工业大数据处理与分析任务的交互式探索、建模、调试和应用而设计。根据CRISP-DM设计原则,一般大数据处理与分析分为业务理解、数据理解、数据准备、建模、评估和部署等阶段,各阶段相辅相成,形成一个大数据处理分析生命周期。 图1.交互式大数据处理与分析技术设计思想 本成果技术基于上述CRISP-DM的设计思想而设计,完全支持大数据处理与分析生命周期。该技术的特点包括: (1)内置数百种通用和专用的大数据分析算法和模型,并提供了按需扩展机制,用户可以按照自己的需要随时添加和扩充,以支持客户特定的大数据应用需求; (2)支持拖拽方式构建处理与分析流程,完全图形化设计大数据处理分析计算流程,并能在设计过程中进行单步/多步运行调试,查看中间结果,实时调整运行结果,以获得用户期望的处理分析结果; (3)支持机器学习模型训练及使用,内置了机器学习模型训练框架,一般机器学习模型在该技术的支持下,可以实现快速训练,训练结果可支持进一步的大数据处理与分析; (4)支持数据处理与分析流程参数化,在其提供的内部数据处理与分析算法模板中,用户通过算法模板可以开发面向Java、Python的算法,并集成和扩展到该技术的算法集合,实现按需定制处理分析; (5)支持数据画像和学习模型可视化,以图形化的方式定制数据画像的方法模型,并以二维和三维图表的形式展示给用户; (6)支持批处理、流处理和流转批处理三种处理方式; (7)按需定制运行计划与资源有效利用,用户可设置任务执行计划,任务执行计划定期运行,以实现周期性处理分析,方便获得持续的运行结果。 清华数为交互式大数据处理与分析技术面向多种用户角色,包括数据工程师、数据分析师、数据科学家、算法工程师、运维工程师、代码工程师等。采用分层设计,分为客户层、服务层、计算层。 客户层包括流程建模调试工具,用户可用工具图形化拖拽式设计处理与分析计算模型,并可进行调试和查看中间结果;管理工具,针对服务层所调用和访问的计算框架或者外部系统进行管理,包括对于数据源、计算环境、存储环境等的管理工具。 服务层主要包括流程调度服务,即负责按照用户所设定的工作计划来定时调度执行计算模型;执行服务,是负责执行处理分析计算的模型和算法的服务;计算资源管理服务负责管理执行服务中所能集成的所有的服务,如计算框架和存储设施等。 计算层是执行服务在执行处理分析算法和模型中所访问的外部服务,包括计算组件或框架,以及持久化存储组件或者系统等。 图2.交互式大数据处理与分析技术架构 本成果的交互式处理与分析技术较好地解决了工业大数据处理分析工作中所遇到的问题和痛点,并且能够广泛应用于多个行业和领域中,如能源、矿山、医疗器械、装备制造业、消费品制造业、工程机械行业等。 合作需求 期待与工业、医疗等领域企业紧密合作,获得各领域的实际需求,促使该技术不断完善和升级迭代,走向成熟。 未来将在工程机械行业、医疗机械行业、矿山行业、装备制造行业、互联网电商行业等寻求更多的成果转化、深度合作机会,在合作基础上,推动上述行业领域实现数字化转型和智能化升级,为国家实现“双碳”目标做出清华贡献。
清华大学
2022-04-25
大数据
背景下AI同传翻译质量研究
一、项目进展 创意计划阶段 二、负责人及成员 姓名 学院/所学专业 入学/毕业时间 学号 赵玉蓉 外国语学院/英语 2016/2020 201631131102 三、指导教师 姓名 学院/所学专业 职务/职称 研究方向 阮先玉 外国语学院/英语 教研室主任/副教授 语言学、翻译 四、项目简介 随着互联网的发展,机器翻译成为翻译活动中的重要的辅助工具。而机器翻译错译、死译频出,给翻译工作带来诸多不便。近年来,“大数据”的出现为机器翻译带来了新希望,其独特的“4V”特点将对机器翻译产生革命性的影响。尤其最近出现的AI同传给翻译行业带来了不小的冲击,本项目希望通过探究大数据在AI同传中的应用,分析AI同传翻译的优点和局限性,推动机器翻译的发展。
西南石油大学
2023-07-18
中潮教育——教育
大数据
和产教融合
湖北中潮教育科技集团有限公司(简称“中潮教育”)是一家基于教育大数据和产教融合理念,通过教育内容研发与创新,充分利用移动互联网和信息技术的手段,打造商学类、管理类、法律类、党建类、人文类专业、职业与行业的课程体系,为各类企业、事业和政府组织建立特色化的职业技能提升学习系统,帮助社会大众提升职业素质,培养学习型组织,实现利用互联网平台传授知识、传播思想、传承文化的教育企业。
湖北中潮教育科技集团有限公司
2022-07-26
理学院
大数据
研究团队在人工智能与
大数据
处理领域发表系列高水平研究成果
我校理学院大数据研究团队在人工智能与大数据处理技术研究方面取得系列进展,研究成果分别发表在IEEE Transactions on Neural Networks and Learning Systems、IEEE Transactions on Cybernetics和Information Sciences三大人工智能顶级期刊。神经网络是人工智能领域中目前最为火热的研究方向——深度学习的架构基础。虽然深度学习在近几年发展迅速,但是关于如何设计最优神经网络架构的问题仍处于探索阶段。该团队分别针对人工智能中神经网络结构复杂、高维大规模数据存在无效和冗余特征、难以获取长时序信息等问题与缺陷,设计出了一系列网络结构优化、大数据特征选择和时序循环神经网络模型,有效改善了上述不足,提高了人工智能模型的学习性能。 题目为《带Group Lasso惩罚与控制冗余的神经网络特征选择》(Feature Selection using a Neural Network With Group Lasso Regularization and Controlled Redundancy)的研究论文发表在人工智能领域权威国际期刊IEEE Transactions on Neural Networks and Learning Systems。王健副教授和博士生张华清为该论文共同第一作者, 我校荣誉教授Nikhil R. Pal院士(印度统计研究所)参与指导,中国石油大学(华东)为第一署名单位。该项工作得到国家自然科学基金、国家科技重大专项、山东自然科学基金、中央高校基本科研业务费、中国石油天然气集团公司重大科技项目以及山东省高校青年创新科技支撑计划的资助。 特征选择技术也称属性选择,是指从原始特征或属性中选择出最有效的特征或属性以降低数据维度的过程,它是人工智能数据预处理环节的重要步骤,也是大数据处理技术的重要环节。该项工作在神经网络中嵌入Group Lasso惩罚项并实现特征冗余控制,在选出对解决问题最有帮助、蕴含信息量最大的特征或属性的同时,控制所选特征子集的冗余程度,以达到降维的最优效果,从而使模型的泛化能力更强,降低神经网络模型产生过拟合的风险。 题目为《基于L1正则化的神经网络结构优化模型设计与分析》(Learning Optimized Structure of Neural Networks by Hidden Node Pruning With L1Regularization)的研究论文发表在国际人工智能领域权威期刊IEEE Transactions on Cybernetics。硕士生谢雪涛和博士生张华清为论文共同第一作者,王健副教授为通讯作者,我校荣誉教授Nikhil R. Pal院士(印度统计研究所)参与指导,中国石油大学(华东)为第一署名单位。该项研究成果得到了国家自然科学基金、山东省自然科学基金和中央高校基本科研业务费的资助。 该项工作借助L1正则子具有的稀疏表达能力,提出两种神经网络结构优化学习模型;本项工作另外一个突出贡献就是提出了一种简单且具有通用性的收敛性证明方法,同时保证了模型设计的合理性。实验结果表明所提出模型具有强大的鲁棒性、广泛的适用性、理想的剪枝能力和良好的泛化能力,适用处理高维大数据。该研究成果在人工智能与深度学习构造最简网络结构方面具有很强的指导作用和应用推广价值。
中国石油大学(华东)
2021-02-01
基于深度时空分析的综合能源
数据
挖掘
与预测技术
本成果针对城市水电气热等综合能源数据来源广泛,结构复杂,且与用户、时间、空间信息关系紧密的特点,构建了高性能综合能源数据分析平台,提出了细粒度的能源数据分析理论框架及方法,并将其应用于智慧城市建设。
南开大学
2021-02-01
首页
上一页
1
2
...
6
7
8
...
52
53
下一页
尾页
热搜推荐:
1
第62届高博会将于2024年11月重庆举办
2
2024年云上高博会产品征集
3
征集高校科技成果及大学生创新创业项目