ข้อความและการเขียน-กระดาษ

Papers with Code คืออะไร?

Papers with Code เป็นแพลตฟอร์มที่เน้นการวิจัยที่กำลังเป็นที่นิยมในด้านการเรียนรู้ของเครื่องพร้อมกับโค้ดเพื่อการใช้งาน มันทำหน้าที่เป็นแหล่งข้อมูลที่ครอบคลุมสำหรับนักวิจัยและนักพัฒนาที่ต้องการติดตามความก้าวหน้าล่าสุดและการใช้งานจริงในด้านการเรียนรู้ของเครื่อง

ประโยชน์ของ Papers with Code

เข้าถึงงานวิจัยล่าสุด: ติดตามงานวิจัยล่าสุดในด้านการเรียนรู้ของเครื่อง
พร้อมสำหรับการใช้งาน: เข้าถึงโค้ดการใช้งานโดยตรง ช่วยให้ทดลองและเรียนรู้ได้ง่ายขึ้น
การเปรียบเทียบประสิทธิภาพ: เปรียบเทียบประสิทธิภาพของโมเดลต่างๆ ในงานหลากหลายประเภท
การมีส่วนร่วมของชุมชน: มีส่วนร่วมกับชุมชนนักวิจัยและนักพัฒนาที่แชร์ข้อมูลเชิงลึกและการปรับปรุง

วิธีการใช้ Papers with Code

สำรวจงานวิจัย: เรียกดูรายการงานวิจัยด้านการเรียนรู้ของเครื่องที่คัดสรรโดยเรียงตามความเกี่ยวข้องและผลกระทบ
เข้าถึงโค้ด: เข้าถึงคลังโค้ดการใช้งานของการวิจัยโดยตรง
เปรียบเทียบโมเดล: ดูและเปรียบเทียบประสิทธิภาพของโมเดลในชุดข้อมูลและงานมาตรฐาน
ร่วมมือ: แชร์การปรับปรุงหรือการใช้งานใหม่กับชุมชน

งานวิจัยที่โดดเด่น

MossFormer: การผลักดันขีดจำกัดประสิทธิภาพของการแยกเสียงพูดแบบโมโน

คำอธิบาย: ใช้ทรานส์ฟอร์เมอร์หัวเดียวที่มีการควบคุมร่วมกับการให้ความสนใจตัวเองเพื่อปรับปรุงการแยกเสียงพูด
คลังโค้ด: มีให้บน GitHub ภายใต้ modelscope/ClearerVoice-Studio

Gaze-LLE: การประมาณเป้าหมายการมองด้วยการเข้ารหัสที่เรียนรู้ในขนาดใหญ่

คำอธิบาย: มุ่งเน้นในการทำนายเป้าหมายการมองในฉากโดยใช้การเข้ารหัสที่เรียนรู้
คลังโค้ด: มีให้บน GitHub ภายใต้ fkryan/gazelle

Segment Any Text: วิธีการสากลสำหรับการแบ่งประโยค

คำอธิบาย: แนะนำโมเดล SaT สำหรับการแบ่งประโยคที่แข็งแกร่งและมีประสิทธิภาพ
คลังโค้ด: มีให้บน GitHub ภายใต้ facebookresearch/large_concept_model

StableAnimator: การแอนิเมชันภาพมนุษย์ที่รักษาคุณภาพและตัวตนสูง

คำอธิบาย: ปรับปรุงคุณภาพใบหน้าระหว่างการแอนิเมชันโดยใช้การเพิ่มประสิทธิภาพตามสมการ Hamilton-Jacobi-Bellman
คลังโค้ด: มีให้บน GitHub ภายใต้ Francis-Rings/StableAnimator

SynCamMaster: การสร้างวิดีโอหลายกล้องที่สอดคล้องกัน

คำอธิบาย: ความก้าวหน้าในโมเดลการแพร่กระจายวิดีโอสำหรับการสร้างวิดีโอหลายกล้องที่สอดคล้องกัน
คลังโค้ด: มีให้บน GitHub ภายใต้ kwaivgi/syncammaster

การเรียนรู้สนามการไหลในความสนใจสำหรับการสร้างภาพบุคคลที่ควบคุมได้

คำอธิบาย: ปรับปรุงประสิทธิภาพของโมเดลการแพร่กระจายโดยใช้การสูญเสียที่ไม่ขึ้นกับโมเดล
คลังโค้ด: มีให้บน GitHub ภายใต้ franciszzj/leffa

สนามท้องถิ่นของนิวรัลสำหรับการประมาณท่าทางและรูปร่าง 3 มิติของมนุษย์อย่างต่อเนื่อง

คำอธิบาย: เปลี่ยนการสร้างแบบจำลอง 3 มิติของมนุษย์จากภาพเดียวไปสู่แนวคิดที่เน้นข้อมูล
คลังโค้ด: มีให้บน GitHub ภายใต้ isarandi/nlf

Video Seal: การประทับลายน้ำวิดีโอที่เปิดกว้างและมีประสิทธิภาพ

คำอธิบาย: แนะนำกรอบงานสำหรับการประทับลายน้ำวิดีโอนิวรัล
คลังโค้ด: มีให้บน GitHub ภายใต้ facebookresearch/videoseal

HunyuanVideo: กรอบงานระบบสำหรับโมเดลการสร้างวิดีโอขนาดใหญ่

คำอธิบาย: โมเดลโอเพนซอร์สที่แสดงประสิทธิภาพสูงในการสร้างวิดีโอ
คลังโค้ด: มีให้บน GitHub ภายใต้ tencent/hunyuanvideo

LLMs-as-Judges: การสำรวจอย่างครอบคลุมเกี่ยวกับวิธีการประเมินโดยใช้ LLM

คำอธิบาย: วิเคราะห์ข้อจำกัดของผู้พิพากษา LLM และทิศทางในอนาคต
คลังโค้ด: มีให้บน GitHub ภายใต้ cshaitao/awesome-llms-as-judges