什么是Papers with Code?
Papers with Code 是一个平台,突出展示机器学习领域的热门研究以及实现这些研究的代码。它是研究人员和开发人员的综合资源,帮助他们了解机器学习的最新进展和实际应用。
Papers with Code的优势
- 获取最新研究:及时了解机器学习领域的最新论文。
- 实现准备就绪:直接访问代码实现,便于实验和学习。
- 基准测试:比较不同模型在各种任务中的性能。
- 社区参与:与研究人员和开发者社区互动,分享见解和改进。
如何使用Papers with Code
- 探索论文:浏览按相关性和影响力排序的机器学习论文精选列表。
- 访问代码:直接访问包含研究代码实现的代码库。
- 基准模型:查看并比较模型在标准数据集和任务上的性能。
- 贡献:与社区分享改进或新的实现。
精选论文
MossFormer: 突破单声道语音分离的性能极限
- 描述:利用带有卷积增强联合自注意力的门控单头变压器来改善语音分离。
- 代码库:在GitHub上可用,位于
modelscope/ClearerVoice-Studio
。
Gaze-LLE: 通过大规模学习编码器进行注视目标估计
- 描述:专注于使用学习编码器预测场景中的注视目标。
- 代码库:在GitHub上可用,位于
fkryan/gazelle
。
Segment Any Text: 一种通用的句子分割方法
- 描述:介绍了SaT模型,用于稳健和高效的句子分割。
- 代码库:在GitHub上可用,位于
facebookresearch/large_concept_model
。
StableAnimator: 高质量身份保留的人像动画
- 描述:在动画过程中使用基于Hamilton-Jacobi-Bellman方程的优化提高面部质量。
- 代码库:在GitHub上可用,位于
Francis-Rings/StableAnimator
。
SynCamMaster: 同步多摄像机视频生成
- 描述:在视频扩散模型中实现一致的多摄像机视频生成。
- 代码库:在GitHub上可用,位于
kwaivgi/syncammaster
。
在注意力中学习流场以生成可控的人像图像
- 描述:通过使用模型无关损失改进扩散模型的性能。
- 代码库:在GitHub上可用,位于
franciszzj/leffa
。
用于连续3D人体姿态和形状估计的神经定位场
- 描述:将单图像3D人体建模转变为数据中心范式。
- 代码库:在GitHub上可用,位于
isarandi/nlf
。
Video Seal: 开放且高效的视频水印
- 描述:引入了一种神经视频水印框架。
- 代码库:在GitHub上可用,位于
facebookresearch/videoseal
。
HunyuanVideo: 大规模视频生成模型的系统框架
- 描述:一个开源模型,展示了视频生成的高性能。
- 代码库:在GitHub上可用,位于
tencent/hunyuanvideo
。
LLMs-as-Judges: 基于LLM的评估方法综合调查
- 描述:分析LLM评审的局限性和未来方向。
- 代码库:在GitHub上可用,位于
cshaitao/awesome-llms-as-judges
。