YOCSEF广深思辨：复杂大数据聚类分析的机遇与挑战在何处？‘博鱼(boyu·中国)官方网站’

时间：2024-09-21 23:07:03

　　本文摘要：2019年6月2日，YOCSEF广州分论坛、深圳分论坛在广州大学城中山大学数据科学与计算机学院顺利举行了“简单大数据聚类分析的机遇与挑战在何处？

2019年6月2日，YOCSEF广州分论坛、深圳分论坛在广州大学城中山大学数据科学与计算机学院顺利举行了“简单大数据聚类分析的机遇与挑战在何处？”大湾区IT创意论坛。本次论坛由YOCSEF广州AC委员、华南农业大学黄栋博士，YOCSEF深圳AC委员、深圳大学陈小军博士联合兼任执行主席。广州分论坛副主席王昌栋博士，广州分论坛主席郝天永博士深度参予，AC委员韦光、杜透射、李冠彬等参予。

论坛共计更有了来自北京理工大学、澳门大学、中山大学、华南理工大学、华南师范大学、华南农业大学、广东外语外贸大学、广东工业大学、广州大学、广东药科大学、深圳大学、哈尔滨工业大学（深圳）等十余所大湾区高校、深圳市公共卫生身体健康委以及多家著名IT企业的60多人参与。广州图普网络科技有限公司获取了活动赞助商。论坛分成先导报告和辩论光明日报两个阶段。

先导报告阶段由陈小军博士主持人。王昌栋博士以“多视图非线性聚类”为题，侧重讲解了非线性聚类、多视图聚类以及多视图非线性聚类的理论、方法以及涉及进展。

陈小军博士以“面向大数据的图聚类方法”为题，阐释了在大数据场景下的图模型建构与优化及其在大数据聚类问题中的应用于。张晓峰博士以“基于半监督聚类结构调整的分类方法研究”为题，阐述了不具备自动调整模型结构能力的半监督聚类模型。

黄栋博士以“从构建聚类到大规模聚类：受限资源下的大规模聚类问题兼及”为题，从构建聚类的若干最重要问题应从，更进一步将话题伸延至在常规单机环境下可应付千万级数据的大规模序聚类及大规模构建聚类研究。经过先导报告的多角度阐述，论坛之后环绕“简单大数据聚类的机遇与挑战”进行多个涉及议题的辩论光明日报。辩论光明日报环节由黄栋博士主持人，与会人士针对以下三个议题展开了有理有据、针锋相对的思辨性正反方辩论。“在大数据时代下，无监督自学的重要性是更加明显，还是慢慢消失？”“深度自学朝著行进，聚类分析与之联手，还是各司其职？以及各司何职？”“大数据聚类分析，最亟待解决之瓶颈是硬件、是数据、还是算法？”光明日报议题一：无监督自学的重要性是更加明显还是慢慢消失？广州分论坛主席郝天永指出，无监督自学的重要性不会更加明显。

大量数据的兴起往往预示缺少标签或者很难去打标签的难题，比如在医学领域和金融领域，无监督自学可以在无类标的情况下更佳地去解决问题一些问题，因此“更加明显”。华南农业大学黄栋博士某种程度车站在正方，指出少量标签信息有可能使得无监督模型效果深感提高，但有时候“模型设计得好不好”比“否特少量监督信息”变得更为重要。

对于一个好的无监督模型，甚至有可能在很多数据场景下比一些半监督模型展现出出有更佳的性能，更加关键的问题是模型本身好不好，从实验上、从数学下有没有更佳的承托。王昌栋则车站在反方，以中山大学校园卡数据的实际项目为事例，在缺乏标签的情况下有所不同无监督模型得出结论的差异十分大，后来要求将无监督模型更换为了半监督模型。陈小军博士也是车站在反方，提到此前做到过的腾讯金融风触方面数据，规模尤其大；仅有用于无监督自学的结果，因为没类标，十分无法评价，工业界对这个结果也是有批评的。

陈小军博士补足回应，更加反对半监督的方式，在现有的半监督作法中，把有监督的loss函数与无监督的loss函数展开人组是一种经典手段，但这种人组好不好也是他最近在思维的一个问题。光明日报议题二：深度自学朝著行进，聚类分析与之联手，还是各司其职？深圳大学陈小军博士回应，深度自学可以自学数据密切相关，之后能用常规聚类算法展开分析，但对聚类分析中的相近度自学没贡献，如何运用深度自学去提高相近度自学，或者如何用深度自学对非线性可分数据获得一个线性空间下的密切相关，两者可以互相“联手”。中山大学邓志鸿赞成利用深度自学的方法来自学数据的低维传达，以此完全一致“联手”。

回应，黄栋指出，有数“深度自学+聚类分析”涉及研究，但只在图像数据集（或高维数据）上实验，因为对图像这种低维度、有效地特征无法萃取的简单数据，深度自学在特征回应上的优势显出，但对于大规模较低维度数据，未来也仍是“各司其职”。郝天永指出深度自学在特征提取和其他一些领域有十分最重要的起到，联手可以目标，但路还很长，目前两者仍是各司其职。澳门大学的冯绮颖同学提及自己目前就在做到深度聚类的研究，用深度自学对高维数据展开特征提取再行不作聚类分析显然可以获得很好的效果，但与此同时计算出来复杂度下降的问题、以及深度自学必须徵参以提高模型效果的问题。

陈小军指出聚类分析的想法是无监督的，如果不合理徵荐违背无监督自学本质。王昌栋指出深度模型通过特定数据徵参调优之后再行作聚类，一方面与无监督原作有违，另一方面对特定领域效果很好，但推广性较好，很有可能的情况是换作其他类型数据就经常出现很差效果。黄栋调换参问题明确提出有所不同观点，算法可分成专用算法和标准化算法，专用算法对某一类数据有效地，标准化算法则限于于广泛数据，两者都很有意义；广州大学姜誉博士指出深度自学与聚类分析各有所长，深度自学有应用于聚类分析的有可能，但更好地应用于其他领域，二者仍将各司其职。光明日报议题三：大数据聚类分析，最亟待解决之瓶颈是硬件（算力）、是数据、还是算法？陈小军指出当前仅次于瓶颈是算法，有数大量数据且硬件算力十分强劲。

例如微信缴纳每天十几亿的交易次数，仅次于瓶颈还在于算法；王昌栋则指出，大数据聚类的仅次于瓶颈在于数据，应向数据分布的角度考虑到，根据数据的特点来设计适当的算法；何宝华明确提出回应赞成王昌栋博士的结论，但赞成其正式成立理由，并敦促从数据取样及置信度方面展开考虑到；黄栋指出在大数据分析中，数据规模充足大，但数据过于好，予以清除的大规模数据只不过是很难用于的，而数据清除是十分困惑的一个问题。陈小军博士从另一个角度问这个问题，他指出，数据清除仍然是算法的一部分。

但是，除了从算法应从，数据清除很多时候还是必须专家科学知识，例如医学专家、金融专家等，专家科学知识可以解读为数据的范畴。广东药科大学的傅城州博士认为，无法因为数据很差就不去做到，我们的目标就是指数据中找到问题、并解决问题，瓶颈不在于数据，而在于需要很好解决问题这个数据问题的算法。黄栋博士用了一个生动的比喻，他说道：“炒菜炒得很差，无法鬼原料，要反省的是厨艺不炼！”广东工业大学杜透射博士提及，此前项目经验，大部分时间花上在数据清除上，但这一部分不作好又无法积极开展先前核心算法工作，数据的整理和清除只不过更加合适让公司的人来做到，让学者可以更加专心于核心算法设计。

中山大学李佩珍指出，在推崇算法和数据的同时，不应当忽视算力。硬件和算法同时都是仅次于瓶颈，算力的瓶颈不在于过于大而在于过于accessible，很多人对超算过于理解或知道如何用于。论坛光明日报议题辩论后，大家意犹未尽，辩论了由议题三产生的派生议题“数据孤岛问题”、“大数据之大，哪众多，最可怕？大样本、大维度、大噪声，还是其他之大？”，辩论联邦自学与迁入自学问题，论述横跨医院、横跨银行的数据共享难题。

参予辩论的人员各所持观点，从有所不同角度展开白热化辨析，撞击出有很多思想的火花。本次广深牵头大湾区IT创意论坛获得圆满成功。

中国计算机学会( China Computer Federation, CCF )，是一个计算出来领域对外开放的、专业的学术社团，坚决会员为本的宗旨，致力于推展计算技术的发展和应用于，致力于服务专业人士的职业发展。CCF YOCSEF是中国计算机学会青年计算机科技论坛的全称，是由中国计算机学会（CCF）于1998年创立的系列性专业性活动。

总部设于北京，目前已在广州、上海、杭州、长沙、成都、深圳等26个城市创建了分论坛，活动形式主要还包括：专题论坛、学术报告会、学术评价、评奖、贫困地区助教等。

本文关键词：博鱼(boyu·中国)官方网站,BOYU SPORTS

本文来源：博鱼(boyu·中国)官方网站-www.jzfysn.com