算法研究围绕多模态交互与建模，业务涉及LLM大模型和图像生成。

我目前就职于华为，终端云小艺。硕士毕业于中国科学技术大学, 导师是於俊副教授, 企业导师是平安科技美国硅谷研究院院长Peng Chang和Iek-Heng Chu。本科毕业于广州大学, 导师是人工智能研究院执行院长李进教授和王显珉副教授。目前参与发表文章10余篇。

本科和研究生期间以来经常参加算法比赛，累计国内外AI算法竞赛获奖20余次，掌握丰富的比赛经验和策略。此外，担任阿里安全学生专家小组成员, 阿里安全挑战者计划排行榜第七名。

我的研究领域包括：

多模态交互与建模 (CV/NLP)
AIGC
细粒度图像识别
鲁棒机器学习

我的业务方向包括：

大语言模型
探索性数据分析 (EDA)
数据挖掘
风格迁移 (Autoencoder、GAN、Diffusion model)
目标检测

📝 发表论文

IJCAI 2024 (CCF-A)

Dialogue Cross-Enhanced Central Engagement Attention Model for Real-Time Engagement Estimation
Jun Yu, Keda Lu, Ji Zhao et al. (学生一作)

为了解决sliding window的重复推理问题，提出cente-based sliding window，推理效率提升100%。
提出基于自注意力机制的核心参与度注意力模型，超越先前的SOTA的BiLSTM模型，推理效率提升300%。
基于交叉注意力提出交叉增强模块，和核心参与度注意力模型无缝集成，交互对话者的特征，实现了实时参与度估计任务新的SOTA。

CVPR 2024 (CCF-A) workshop

MvAV-pix2pixHD: Multi-view Aerial View Image Translation
Jun Yu, Keda Lu, Shenshen Du et al. (学生一作)

设计针对多视角图像翻译任务的时间优先采样和随机采样方法。
提出了用于多视角图像翻译的MvAV-pix2pixHD，使用了三个强大的loss。
该论文的方法应用于MAVIC-T竞赛中的2个多视角图像翻译任务中取得了1个冠军和1个亚军。

ACM-MM 2023 (CCF-A)

ACM-MM 2023(CCF-A) Sliding Window Seq2seq Modeling for Engagement Estimation
Jun Yu, Keda Lu, Mohan Jing et al. (学生一作)
TOMM 2024在投(CCF-B) Exploring Seq2seq Models for Engagement Estimation in Dyadic Conversations
Jun Yu, Keda Lu, Lei Wang et al. (学生一作)

基于Transformer和BiLSTM模型提出Seq2seq参与度估计模型，实现了当前参与度估计任务新的SOTA。Transformer尝试4种绝对和相对位置编码，包括RoPE。
针对长视频直接划分遇到的上下文大量丢失问题，提出滑动窗口提升性能。
提出Ai-BiLSTM去对齐和交互对话者的多模态特征，进一步提升性能。
该论文的方法应用于ACM-MM 2023中的参与度估计竞赛中取得了冠军。

Trans 在投

A Comprehensive and Unified Out-of-Distribution Classification Solution Framework
Jun Yu, Keda Lu, Yifan Wang et al. (学生一作)

(数据)提出semantic masking数据增强用于提升模型针对occlusion场景的鲁棒性，并提出了OOD-DAS，一个全面且鲁棒的数据增强集合。
(模型)提出OOD-Attention，可用于SOTA分类模型无缝集成，提升模型鲁棒性。
(策略)提出多架构模型集成的迭代伪标签方法，进一步提升OOD识别的精度。
该论文的方法应用于ICCV 2023的OOD识别竞赛中取得了冠军。

ACM-MM 2024 End-to-end Spatio-Temporal Information Aggregation For Micro-Action Detection Jun Yu, Mohan Jing, Gongpeng Zhao, Keda Lu et al.
ACM-MM 2024 Building Robust Video-Level Deepfake Detection via Audio-Visual Local-Global Interactions Yifan Wang, Xuecheng Wu, Jia Zhang, Mohan Jing, Keda Lu et al.
ACM-MM 2023 Answer-Based Entity Extraction and Alignment for Visual Text Question Answering Jun Yu, Mohan Jing, Weihao Liu, Tongxu Luo, Bingyuan Zhang, Keda Lu et al.
CLEF 2022 Bag of Tricks and a Strong Baseline for FGVC. Jun Yu, Hao Chang, Keda Lu et al.
CLEF 2022 Efficient Model Integration for Snake Classification Jun Yu, Hao Chang, Zhongpeng Cai, Guochen Xie, Liwen Zhang, Keda Lu et al.
CVPR 2022 workshop Pseudo-label generation and various data augmentation for semi-supervised hyperspectral object detection Jun Yu, Liwen Zhang, Shenshen Du, Hao Chang, Keda Lu et al.
AAAI 2022 workshop Mining limited data for more robust and generalized ML models, Jun Yu, Hao Chang, Keda Lu et al.
International Journal of Machine Learning and Cybernetics Generating transferable adversarial examples based on perceptually-aligned perturbation, Hongqiao Chen, Keda Lu, Xianmin Wang et al.

💻 业务项目

2024.03 - 至今 多模态大模型

EDA展示

2023.10 - 2024.02 贷款客户还款意愿识别

基于百万级别宽表数据和千万级别通话文本进行探索性数据分析(EDA)。
EDA->数据清洗->特征工程，使用Bert对文本建模，识别客户的还款意愿。
尝试利用LLM对通话文本进行数据增强，提高模型鲁棒性。

2023.05 - 2023.09 垂直领域聊天助手(构建训练语料，基于ChatGLM、Bloomz、Qwen等lora微调对比)

OCR大模型展示

2023.03 - 2023.06 OCR大模型展示平台(左图为本人实现demo，以防侵权)

使用Gradio作为前后端，搭建了整个OCR大模型展示接口，包括DocQA、MLLM和纯OCR模块。
本人独立维护，方便对内分析调试，对外业务展示，该项目获得2023年H1【XXX·企点荣誉激励】——技术进步奖。
独立负责DocQA模块，具体细节是对输入的文档、图片等采用ocr提取得到文字后，分段采用embedding后存储到数据库，根据输入的问题也进行embedding，将与之匹配的TopK个段落，一起输入LLM。

中文字体生成

2023.01 - 2023.03 任意风格中文字体生成 (GAN、Diffusion model)

调研了中文字体生成算法，主流采用GAN，唯一一个采用了Diffusion model(Diff-Font)，但其风格编码器采用的是GAN预训练的模块。
自行搜集400类字体数据，基于Diffusion model(DDPM)设计端到端的字体生成模型，在SSIM、LPIPS等指标上略优于Diff-Font和DG-Font，但加入风格编码的整体结构训练缓慢。

未来改进点：End2end、对比学习、Diffusion model

文档生成和风格迁移

2022.11 - 2023.01 文档生成和风格迁移（独立调研）

探索Diffusion model和GAN在端到端文档生成的可能性。
调研了各大顶会五年来的风格迁移文章，CNN->Attention->Transformer，包括AdaIN(ICCV2017)、MetaNet(CVPR2018)、SANet(CVPR2019)、MAST(ACM-MM 2020)、StyleFormer(ICCV2021)、AdaAttN(ICCV2021)和StyTr2(CVPR2022)。
复现其中的StyTr2(CVPR2022)和AdaAttN(ICCV2021)，并迁移到文档生成任务中，用于数据增强。

未来改进点：对比学习、GAN、Diffusion model

人脸识别和文本检测

2022.06 - 2022.12 基于Mindspore算法框架复现主流算法

参与复现了RetinaFace人脸检测算法
独立复现了FCENet文本检测算法

课程管理系统

2020.12 - 2021.01 遗传算法智能排课——课程管理系统（独立实现）

使用sqlite3进行数据库管理，使用Bootstrap-Flask进行可视化设计，学生、教师和系主任采用统一登陆界面，不同客户端界面；包含各种选课功能等。
提出排课智能算法，对排课情况提出了一种新型的优化目标函数（利用课程方差），使用了遗传算法对其优化进行排课。
该项目有2000+行的python代码和1000+行的html代码，已开源至个人博客与Github，阅读量3,000+，累计下载量50+。

学生成绩管理系统

2019.04 - 2019.06 基于MFC(C++)学生成绩管理系统（独立实现）

包含增删查改全部基础功能，并且有导入、保存、排序等功能。
设计主要参考了QQ的大登录按钮界面，让人产生清晰干净的感觉。
该项目有10000+行的C++代码，已开源至个人博客与Github，阅读量10,000+，累计下载量200+。

🏅 参与竞赛

🎖 荣誉奖项

2025.03 安徽省优秀毕业生
2025.03 中国科学技术大学优秀毕业生
2024.10 国家奖学金(研究生前1%)
2023.11 华为奖学金(全校30位)
2023.10 国家奖学金(研究生前1%)
2022.10 国家奖学金(研究生前1%)
2021.10 国家奖学金(本科前1%)
2020.10 国家奖学金(本科前1%)

🎓 教育

2022.09 - 2025.07, 中国科学技术大学, 计算机技术, 推荐免试, 硕士
2018.09 - 2022.06, 广州大学, 计算机科学与技术(1/591), 本科

🏛️ 学术会议

2024.03, 昇思人工智能框架产业峰会(华为主办), 受华为邀请, 北京。
2023.11, 第31届ACM多媒体国际会议, 渥太华, 加拿大。
2020.12, 第一届AI与安全研讨会(清华大学人工智能研究院和阿里安全共同主办), 受阿里巴巴邀请, 北京。
2019.10, 第五届GeekPwn国际安全极客大赛, 上海。

💻 工作经历

2025.06 - 至今, 华为, 终端云服务小艺业务部
2023.10 - 2025.06, 平安科技(实习), 美国硅谷研究院
2023.04 - 2023.06, 网易(实习), 伏羲实验室
2022.11 - 2023.09, 腾讯(实习), 优图实验室
2022.06 - 2022.12, 华为(实习), 2012实验室

Thank you very much for every visitor, and I look forward to hearing from you!

卢科达