中文简历

基本信息

姓名 彭浩源
电子邮箱 phy_fdu@163.com
个人主页 haoyuanpeng.github.io

教育经历

  • 2015.09 - 2018.06
    硕士
    复旦大学软件学院
    • 师从郑骁庆教授,主要研究方向包括Parsing和Word Embeddings,成果发表于AAAI-17和AAAI-18。
    • 被评为2018年上海市优秀毕业生。
  • 2011.09 - 2015.07
    学士
    复旦大学软件学院
    • 师从郑骁庆教授,主要研究方向为Parsing,成果发表于IJCAI-15。
    • 在郑骁庆教授指导下完成复旦大学本科生科研项目(登辉计划)。

工作经历

  • 2024.04 - 至今
    资深算法工程师
    字节跳动
    • 借助LLMs的SFT、DPO和RAG技术,为抖音平台上的创作者构建具备相似人设、知识范围和说话风格的AI分身。
    • 设计和开发长期记忆框架,为聊天机器人提供超出对话上下文窗口的记忆能力,包括记忆的总结、更新、检索和评估。
  • 2023.01 - 2024.04
    资深算法工程师
    Learnable.AI(可之科技)
    • 研究通过思维链(Chain-of-Thought)提升LLMs对数学推理错误的检测能力的方法,以共同第一作者身份在IJCAI-24发表研究成果。
    • 微调7B到70B的LLMs以服务于自动批改领域的真实应用,包括自动批改学生作答,以及将学生的作答从自然语言翻译为内部定义的一套形式化语言。
    • 针对学生手写字符的OCR识别场景,设计并开发OCR纠错算法,解决准确区分学生书写错误和OCR识别错误的挑战。
    • 在试用期绩效考核中被评为优秀。
  • 2018.07 - 2022.12
    高级研究员
    腾讯科技(上海)有限公司
    • 负责腾讯云智媒体AI中台的多个视频信息抽取算法,包括视频帧关键信息提取、视频标签和ASR/OCR纠错。视频标签算法在未使用比赛训练数据的情况下获得2021年世界人工智能创新大赛(AIWIN 2021)算法技术赛第二名。
    • 负责为证券行业监管机构定制的智能舆情分析系统中的负面舆情新闻排序、新闻溯源、新闻内容分类、情感分类和命名实体识别等NLP算法的开发和优化。算法效果在验收测试中超出客户预期。
    • 负责腾讯TI-ONE机器学习平台中的多个ML和DL算法组件的开发。用户无需编写代码,即可借助这些组件在自定义数据上训练和部署模型。
    • 在绩效考核中一次被评为五星绩效,两次被评为四星绩效。
  • 2014 - 2015
    数据分析实习生
    eBay

技术能力

  • 持续跟进NLP领域的前沿研究,有在主流学术会议发表论文的经验。
  • 富有将算法落地于实际工业问题的成功经验,熟悉模型训练、推理、封装和集成的生命周期。
  • 精通python语言,能写出高质量的python代码。曾主导团队内的python代码规范和质量建设。
  • 熟悉Docker容器化技术,能够有效地进行应用的部署、版本控制和迁移以提高开发效率。

其它经历

  • 担任下列会议的审稿人:KDD-23、EMNLP-23、SDM-24、COLING-24、ACL-24、MM-24
  • 担任下列会议的外部审稿人或第二审稿人:ACL-23、ECAI-23

获奖情况

  • 2021
    • 2021年世界人工智能创新大赛(AIWIN 2021)算法技术赛第二名
  • 2020
    • 腾讯新代码文化奖(表彰优秀内部开源项目的奖项)
  • 2018
    • 上海市优秀毕业生

Publications

  • 2024
    LLMs Can Find Mathematical Reasoning Mistakes by Pedagogical Chain-of-Thought
    Zhuoxuan Jiang, Haoyuan Peng (Equal Contribution), Shanshan Feng, Fan Li, Dongsheng Li. Proceedings of the Thirty-Third International Joint Conference on Artificial Intelligence.
  • 2023
    VKIE: The Application of Key Information Extraction on Video Text
    An, Siyu and Liu, Ye and Peng, Haoyuan and Yin, Di. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: Industry Track.
  • 2023
    OSAN: A One-Stage Alignment Network To Unify Multimodal Alignment and Unsupervised Domain Adaptation
    Liu, Ye and Qiao, Lingfeng and Lu, Changchong and Yin, Di and Lin, Chen and Peng, Haoyuan and Ren, Bo. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
  • 2022
    Grafting Pre-trained Models for Multimodal Headline Generation
    Qiao, Lingfeng and Wu, Chen and Liu, Ye and Peng, Haoyuan and Yin, Di and Ren, Bo. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing: Industry Track.
  • 2019
    Detecting Abnormal Start-Ups, Unusual Resource Consumptions of the Smart Phone: A Deep Learning Approach
    ZHENG, Xiaoqing and LU, Yaping and PENG, Haoyuan and FENG, Jiangtao and ZHOU, Yi and JIANG, Min and MA, Li and ZHANG, Ji and JI, Jie. ZTE Communications.
  • 2018
    Attention-based belief or disbelief feature extraction for dependency parsing
    Peng, Haoyuan and Liu, Lu and Zhou, Yi and Zhou, Junying and Zheng, Xiaoqing. Proceedings of the AAAI Conference on Artificial Intelligence.
  • 2018
    RNN-based sequence-preserved attention for dependency parsing
    Zhou, Yi and Zhou, Junying and Liu, Lu and Feng, Jiangtao and Peng, Haoyuan and Zheng, Xiaoqing. Proceedings of the AAAI Conference on Artificial Intelligence.
  • 2017
    Learning context-specific word/character embeddings
    Zheng, Xiaoqing and Feng, Jiangtao and Chen, Yi and Peng, Haoyuan and Zhang, Wenqing. Proceedings of the AAAI Conference on Artificial Intelligence.
  • 2015
    Character-based parsing with convolutional neural network
    Zheng, Xiaoqing and Peng, Haoyuan and Chen, Yi and Zhang, Pengjing and Zhang, Wenqiang. Twenty-Fourth International Joint Conference on Artificial Intelligence.