cv_zh

基本信息

姓名 彭浩源
电子邮箱 phy_fdu@163.com
个人主页 haoyuanpeng.github.io

教育经历

  • 2015.09 - 2018.06
    硕士学位 - 计算机软件与理论专业
    复旦大学软件学院
    • 师从郑骁庆教授进行NLP前沿技术的研究,主要研究方向包括依存句法分析和预训练词嵌入。研究成果发表于AAAI-2017和AAAI-2018。
    • 深度参与基于深度学习的NLP工具——FudanDNN-NLP的开发。
    • 被评为2018年上海市优秀毕业生。
  • 2011.09 - 2015.07
    学士学位 - 软件工程专业
    复旦大学软件学院
    • 自2013年起师从郑骁庆教授进行NLP前沿技术的研究。研究成果发表于IJCAI-2015。
    • 在郑骁庆教授指导下完成复旦大学本科生实验实践资助计划(登辉计划)项目。

工作经历

  • 2023.01 - 至今
    资深算法工程师
    Learnable.AI(可之科技)
    • 研究通过思维链(Chain-of-Thought)技术提升大语言模型检测数学推理错误的能力。研究成果已被IJCAI-2024录用。
    • 微调7B到70B的大语言模型以服务于自动批改领域的真实应用。落地的应用包括自动批改学生作答,以及将学生的作答从自然语言翻译为内部定义的一套形式化语言。
    • 针对学生手写字符的OCR识别场景,设计并开发OCR纠错算法,解决准确区分学生书写错误和OCR识别错误的挑战。
    • 在试用期绩效考核中被评为优秀。
  • 2018.07 - 2022.12
    高级研究员
    腾讯科技(上海)有限公司
    • 负责腾讯云智媒体AI中台的多个视频结构化算法开发,包括多模态视频关键信息提取算法、视频标签算法和用于ASR及OCR结果的文本纠错算法。视频标签算法在未使用比赛训练数据的情况下获得2021年世界人工智能创新大赛(AIWIN 2021)算法技术赛第二名。
    • 为私有化项目客户定制开发文本审核系统。系统通过结合词库,文本纠错模型和分层过滤策略的方式识别对抗样本。
    • 负责腾讯TI-ONE机器学习平台中的多个传统机器学习和深度学习算法的开发,使用户无需编写代码,即可在自定义数据上训练得到自定义模型。
    • 负责为证券行业监管机构定制的智能舆情分析系统中的负面舆情新闻排序、新闻溯源、新闻内容分类、情感分类和命名实体识别等NLP算法的开发和优化。算法效果在验收测试中超出客户预期。
    • 负责腾讯公有云NLP产品中的文本匹配和文本纠错算法的开发。这两个算法也在若干私有化客户项目中落地应用。
    • 在绩效考核中一次被评为五星绩效,两次被评为四星绩效。
  • 2014 - 2015
    数据分析实习生
    eBay

技术能力

  • 持续跟进NLP领域的前沿研究,有在主流学术会议发表论文的经验。
  • 有将深度学习算法落地于工业界实际问题的成功经验,熟悉深度学习算法训练、推理、封装和集成的生命周期。
  • 精通python语言,能写出高质量的python代码。曾主导团队内的python代码规范和质量建设。
  • 熟悉主流深度学习框架,包括 pytorch、tensorflow 1.x和tensorflow 2.x。

其它经历

  • 被邀请为下列学术会议的审稿人——KDD-2023, EMNLP-2023, SDM-2024, COLING-2024, ACL-2024
  • 被邀请为下列学术会议的外部审稿人或第二审稿人——ACL-2023, ECAI-2023

获奖情况

  • 2021
    • 2021年世界人工智能创新大赛(AIWIN 2021)算法技术赛第二名
  • 2020
    • 腾讯新代码文化奖(表彰优秀内部开源项目的奖项)
  • 2018
    • 上海市优秀毕业生

Publications

  • 2023
    VKIE: The Application of Key Information Extraction on Video Text
    An, Siyu and Liu, Ye and Peng, Haoyuan and Yin, Di. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: Industry Track.
  • 2023
    OSAN: A One-Stage Alignment Network To Unify Multimodal Alignment and Unsupervised Domain Adaptation
    Liu, Ye and Qiao, Lingfeng and Lu, Changchong and Yin, Di and Lin, Chen and Peng, Haoyuan and Ren, Bo. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
  • 2022
    Grafting Pre-trained Models for Multimodal Headline Generation
    Qiao, Lingfeng and Wu, Chen and Liu, Ye and Peng, Haoyuan and Yin, Di and Ren, Bo. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing: Industry Track.
  • 2019
    Detecting Abnormal Start-Ups, Unusual Resource Consumptions of the Smart Phone: A Deep Learning Approach
    ZHENG, Xiaoqing and LU, Yaping and PENG, Haoyuan and FENG, Jiangtao and ZHOU, Yi and JIANG, Min and MA, Li and ZHANG, Ji and JI, Jie. ZTE Communications.
  • 2018
    Attention-based belief or disbelief feature extraction for dependency parsing
    Peng, Haoyuan and Liu, Lu and Zhou, Yi and Zhou, Junying and Zheng, Xiaoqing. Proceedings of the AAAI Conference on Artificial Intelligence.
  • 2018
    RNN-based sequence-preserved attention for dependency parsing
    Zhou, Yi and Zhou, Junying and Liu, Lu and Feng, Jiangtao and Peng, Haoyuan and Zheng, Xiaoqing. Proceedings of the AAAI Conference on Artificial Intelligence.
  • 2017
    Learning context-specific word/character embeddings
    Zheng, Xiaoqing and Feng, Jiangtao and Chen, Yi and Peng, Haoyuan and Zhang, Wenqing. Proceedings of the AAAI Conference on Artificial Intelligence.
  • 2015
    Character-based parsing with convolutional neural network
    Zheng, Xiaoqing and Peng, Haoyuan and Chen, Yi and Zhang, Pengjing and Zhang, Wenqiang. Twenty-Fourth International Joint Conference on Artificial Intelligence.