算法研究围绕多模态交互与建模,实习业务涉及LLM大模型和图像生成。

目前正在寻求多模态算法、AIGC相关工作。

我将硕士毕业于中国科学技术大学, 导师是於俊副教授, 企业导师是平安科技美国硅谷研究院多模态组组长Peng Chang和Iek-Heng Chu。本科毕业于广州大学, 导师是人工智能研究院执行院长李进教授和王显珉副教授。目前参与发表文章10余篇。

本科和研究生期间以来经常参加算法比赛,累计参与国内外AI算法竞赛共20多次,掌握丰富的比赛经验和策略。 此外,担任阿里安全学生专家小组成员, 阿里安全挑战者计划排行榜第七名。

我的研究领域包括:

  • 多模态交互与建模 (CV/NLP)
  • AIGC
  • 细粒度图像识别
  • 鲁棒机器学习

我的业务方向包括:

  • 大语言模型
  • 探索性数据分析 (EDA)
  • 数据挖掘
  • 风格迁移 (Autoencoder、GAN、Diffusion)
  • 目标检测

📝 发表论文

IJCAI 2024 (CCF-A)
sym

Dialogue Cross-Enhanced Central Engagement Attention Model for Real-Time Engagement Estimation
Jun Yu, Keda Lu, Ji Zhao et al. (学生一作)

  1. 为了解决sliding window的重复推理问题,提出cente-based sliding window,推理效率提升100%。
  2. 提出基于自注意力机制的核心参与度注意力模型,超越先前的SOTA的BiLSTM模型,推理效率提升300%。
  3. 基于交叉注意力提出交叉增强模块,和核心参与度注意力模型无缝集成,交互对话者的特征,实现了实时参与度估计任务新的SOTA。
CVPR 2024 (CCF-A) workshop
sym

MvAV-pix2pixHD: Multi-view Aerial View Image Translation
Jun Yu, Keda Lu, Shenshen Du et al. (学生一作)

  1. 设计针对多视角图像翻译任务的时间优先采样和随机采样方法。
  2. 提出了用于多视角图像翻译的MvAV-pix2pixHD,使用了三个强大的loss。
  3. 该论文的方法应用于MAVIC-T竞赛中的2个多视角图像翻译任务中取得了1个冠军和1个亚军。
ACM-MM 2023 (CCF-A)
sym
  1. 基于Transformer和BiLSTM模型提出Seq2seq参与度估计模型,实现了当前参与度估计任务新的SOTA。Transformer尝试4种绝对和相对位置编码,包括RoPE。
  2. 针对长视频直接划分遇到的上下文大量丢失问题,提出滑动窗口提升性能。
  3. 提出Ai-BiLSTM去对齐和交互对话者的多模态特征,进一步提升性能。
  4. 该论文的方法应用于ACM-MM 2023中的参与度估计竞赛中取得了冠军。
Trans 在投
sym

A Comprehensive and Unified Out-of-Distribution Classification Solution Framework
Jun Yu, Keda Lu, Yifan Wang et al. (学生一作)

  1. (数据)提出semantic masking数据增强用于提升模型针对occlusion场景的鲁棒性,并提出了OOD-DAS,一个全面且鲁棒的数据增强集合。
  2. (模型)提出OOD-Attention,可用于SOTA分类模型无缝集成,提升模型鲁棒性。
  3. (策略)提出多架构模型集成的迭代伪标签方法,进一步提升OOD识别的精度。
  4. 该论文的方法应用于ICCV 2023的OOD识别竞赛中取得了冠军。

💻 业务项目

  • 2024.03 - 至今 多模态大模型
EDA展示
sym
  • 2023.10 - 2024.02 贷款客户还款意愿识别
  1. 基于百万级别宽表数据和千万级别通话文本进行探索性数据分析(EDA)。
  2. EDA->数据清洗->特征工程,使用Bert对文本建模,识别客户的还款意愿。
  3. 尝试利用LLM对通话文本进行数据增强,提高模型鲁棒性。
  • 2023.05 - 2023.09 垂直领域聊天助手(构建训练语料,基于ChatGLM、Bloomz、Qwen等lora微调对比)
OCR大模型展示
sym
  • 2023.03 - 2023.06 OCR大模型展示平台(左图为本人实现demo,以防侵权)
  1. 使用Gradio作为前后端,搭建了整个OCR大模型展示接口,包括DocQA、MLLM和纯OCR模块。
  2. 本人独立维护,方便对内分析调试,对外业务展示,该项目获得2023年H1【XXX·企点荣誉激励】——技术进步奖。
  3. 独立负责DocQA模块,具体细节是对输入的文档、图片等采用ocr提取得到文字后,分段采用embedding后存储到数据库,根据输入的问题也进行embedding,将与之匹配的TopK个段落,一起输入LLM。
中文字体生成
sym
  • 2023.01 - 2023.03 任意风格中文字体生成 (GAN、Diffusion model)
  1. 调研了中文字体生成算法,主流采用GAN,唯一一个采用了Diffusion model(Diff-Font),但其风格编码器采用的是GAN预训练的模块。
  2. 自行搜集400类字体数据,基于Diffusion model(DDPM)设计端到端的字体生成模型,在SSIM、LPIPS等指标上略优于Diff-Font和DG-Font,但加入风格编码的整体结构训练缓慢。
  • 未来改进点:End2end、对比学习、Diffusion model
文档生成和风格迁移
sym
  • 2022.11 - 2023.01 文档生成和风格迁移(独立调研)
  1. 探索Diffusion model和GAN在端到端文档生成的可能性。
  2. 调研了各大顶会五年来的风格迁移文章,CNN->Attention->Transformer,包括AdaIN(ICCV2017)、MetaNet(CVPR2018)、SANet(CVPR2019)、MAST(ACM-MM 2020)、StyleFormer(ICCV2021)、AdaAttN(ICCV2021)和StyTr2(CVPR2022)。
  3. 复现其中的StyTr2(CVPR2022)和AdaAttN(ICCV2021),并迁移到文档生成任务中,用于数据增强。
  • 未来改进点:对比学习、GAN、Diffusion model
人脸识别和文本检测
sym
  • 2022.06 - 2022.12 基于Mindspore算法框架复现主流算法
  1. 参与复现了RetinaFace人脸检测算法
  2. 独立复现了FCENet文本检测算法
课程管理系统
sym
  • 2020.12 - 2021.01 遗传算法智能排课——课程管理系统(独立实现)
  1. 使用sqlite3进行数据库管理,使用Bootstrap-Flask进行可视化设计,学生、教师和系主任采用统一登陆界面,不同客户端界面;包含各种选课功能等。
  2. 提出排课智能算法,对排课情况提出了一种新型的优化目标函数(利用课程方差),使用了遗传算法对其优化进行排课。
  3. 该项目有2000+行的python代码和1000+行的html代码,已开源至个人博客Github,阅读量3,000+,累计下载量50+。
学生成绩管理系统
sym
  • 2019.04 - 2019.06 基于MFC(C++)学生成绩管理系统(独立实现)
  1. 包含增删查改全部基础功能,并且有导入、保存、排序等功能。
  2. 设计主要参考了QQ的大登录按钮界面,让人产生清晰干净的感觉。
  3. 该项目有10000+行的C++代码,已开源至个人博客Github,阅读量10,000+,累计下载量200+。

🏅 参与竞赛

研究生阶段(主要参与)


研究生阶段(协助参与)


本科生阶段


🎖 荣誉奖项

  • 2024.10 国家奖学金(研究生前1%)
  • 2023.11 华为奖学金(全校30位)
  • 2023.10 国家奖学金(研究生前1%)
  • 2022.10 国家奖学金(研究生前1%)
  • 2021.10 国家奖学金(本科前1%)
  • 2020.10 国家奖学金(本科前1%)

🎓 教育

  • 2022.09 - 2025.07, 中国科学技术大学, 计算机技术, 推荐免试, 硕士
  • 2018.09 - 2022.06, 广州大学, 计算机科学与技术(1/591), 本科

🏛️ 学术会议

  • 2024.03, 昇思人工智能框架产业峰会(华为主办), 受华为邀请, 北京。
  • 2023.11, 第31届ACM多媒体国际会议, 渥太华, 加拿大。
  • 2020.12, 第一届AI与安全研讨会(清华大学人工智能研究院和阿里安全共同主办), 受阿里巴巴邀请, 北京。
  • 2019.10, 第五届GeekPwn国际安全极客大赛, 上海。

💻 实习

  • 2023.10 - 2024.10, 平安科技, 美国硅谷研究院
  • 2023.04 - 2023.06, 网易(校企合作), 伏羲实验室
  • 2022.11 - 2023.09, 腾讯, 优图实验室
  • 2022.06 - 2022.12, 华为(校企合作), 2012实验室

Thank you very much for every visitor, and I look forward to hearing from you!