胡天乐

求职方向:算法工程师 / 多模态算法工程师 / 搜索与排序算法
  • 电话:18118167910
  • 邮箱:htl.me@outlook.com
  • 出生年月:2002年2月
  • 政治面貌:中共党员
  • GitHub
  • 个人主页

计算机硕士在读,聚焦多模态信息抽取、VLM/LLM 应用、搜索内容理解与重排序。 兼具科研与产业实战经历,参与 GMNER、多模态定位、生成式搜索事实校验与百度搜索视频重排序等项目, 具备从数据构建、模型训练到效果评估与上线优化的完整链路经验。

多模态信息抽取 视觉定位 搜索重排序 生成式搜索事实校验 数据合成 VLM / LLM 应用 PEFT / 指令微调 PyTorch
证件照
南京理工大学 · 计算机科学与技术 · 学术型硕士(在读)
2024.09 – 2027.03
南京信息工程大学 · 计算机科学与技术 · 工学学士 / 荣誉学士
2020.09 – 2024.06
百度 · 创新搜索策略组(算法)
搜索内容理解、多模态重排序、生成式搜索事实校验
2025.11 – 2026.02
  • 主导 百度搜索场景下“基于故事图的多模态重排序算法”设计,围绕视频内容理解、查询意图匹配与搜索排序质量优化开展工作。
  • 基于视频 ASR / OCR 结果,通过 MRC 聚类生成转场点,并以带剪枝的密度算法补全关键时间戳;进一步抽取对应画面,融合文本、视觉与上下文元数据构建“故事图”实体。
  • 设计多维度评分指令与投票机制,构建高质量偏好对数据集并微调 VLM;相关算法已上线于百度搜索首页结果,推动用户留存率、视频跳点率等核心指标优化。
  • 参与 基于 ReAct 的搜索召回结果事实校验算法,围绕用户满足度、结果冗余度、信息完整度等七大维度开展质量评估,并执行时间一致性、事实相关性和多信源交叉验证,降低生成式搜索幻觉风险。
中科院软件所 · ××领域××项目(算法)
2025.05 – 2025.11
面向多模态命名实体识别与视觉定位的数据合成方法研究
多模态大模型、数据增强、低资源信息抽取
  • 针对社交媒体新实体涌现快、人工标注成本高的问题,提出自动化数据合成方法,用于低成本扩充 GMNER 训练数据。
  • 设计并实现数据合成框架,结合多模态大模型理解与生成能力、传统数据增强及 Mask-and-Fill 策略,自动生成包含新实体且语义合理的图文对数据。
  • 实验表明,该方法可有效提升下游 GMNER 模型性能。
多模态命名实体识别与视觉定位框架 HTL
Google T5 / OFA / VinVL / LLM Bridge
  • 设计并实现 HTL(Hybrid Textual-visual Locator)流水线框架,用于从图文对中自动抽取实体、类型及其在图像中的视觉目标,形成规范三元组。
  • 将复杂 GMNER 任务拆分为多个子任务,综合运用 Google T5、OFA、VinVL 等预训练模型,并引入 LLM 作为桥接模块,增强实体信息丰富度与视觉定位精度。
  • 整体方案体现了在 多模态信息抽取、任务拆解与模块协同设计 方面的能力。
MiniLangModel:基于自注意力机制的小型自然语言模型
PyTorch / 自注意力 / 文本生成
  • 使用 PyTorch 基于一定规模小说文本训练小型语言模型,实现自注意力机制在自然语言生成中的应用。
  • 完成可变窗口分词、双向词典构建、位置编码设计与编码序列处理,通过堆叠自注意力层提取语义特征,实现语义较连贯的按序文本生成。
基于 CNN 的人脸识别系统
Python / PyTorch / ResNet
  • 针对人脸识别场景,使用 Python 与 PyTorch 搭建 ResNet 网络,实现较高正确率识别。
  • 独立完成开发,系统掌握神经网络数学基础、PyTorch 使用方法与模型搭建流程。