Text und Schreiben-Papiere

Was ist Papers with Code?

Papers with Code ist eine Plattform, die aktuelle Forschung im Bereich des maschinellen Lernens zusammen mit dem entsprechenden Implementierungscode hervorhebt. Sie dient als umfassende Ressource für Forscher und Entwickler, die über die neuesten Fortschritte und praktischen Anwendungen im maschinellen Lernen auf dem Laufenden bleiben möchten.

Vorteile von Papers with Code

Zugang zu aktueller Forschung: Bleiben Sie mit den neuesten Arbeiten im maschinellen Lernen auf dem Laufenden.
Bereit zur Implementierung: Direkter Zugang zu Code-Implementierungen, die Experimente und Lernen erleichtern.
Benchmarking: Vergleichen Sie die Leistung verschiedener Modelle bei einer Vielzahl von Aufgaben.
Community-Engagement: Beteiligen Sie sich an einer Gemeinschaft von Forschern und Entwicklern, die Einblicke und Verbesserungen teilen.

Wie man Papers with Code nutzt

Papiere erkunden: Durchsuchen Sie eine kuratierte Liste von maschinellen Lernpapieren, sortiert nach Relevanz und Einfluss.
Code zugreifen: Greifen Sie direkt auf Repositories zu, die die Code-Implementierungen der Forschung enthalten.
Modelle benchmarken: Sehen und vergleichen Sie die Leistung von Modellen über standardisierte Datensätze und Aufgaben hinweg.
Beitragen: Teilen Sie Verbesserungen oder neue Implementierungen mit der Community.

Vorgestellte Papiere

MossFormer: Die Leistungsgrenze der monauralen Sprachtrennung erweitern

Beschreibung: Nutzt einen gated Single-Head-Transformer mit konvolutionsverstärkten gemeinsamen Selbst-Attentionen zur Verbesserung der Sprachtrennung.
Code-Repository: Verfügbar auf GitHub unter modelscope/ClearerVoice-Studio.

Gaze-LLE: Schätzung von Blickzielen über großskalige gelernte Encoder

Beschreibung: Konzentriert sich auf die Vorhersage von Blickzielen in einer Szene mit gelernten Encodern.
Code-Repository: Verfügbar auf GitHub unter fkryan/gazelle.

Segment Any Text: Ein universeller Ansatz zur Satzsegmentierung

Beschreibung: Führt das SaT-Modell für robuste und effiziente Satzsegmentierung ein.
Code-Repository: Verfügbar auf GitHub unter facebookresearch/large_concept_model.

StableAnimator: Hochwertige, identitätserhaltende Animation menschlicher Bilder

Beschreibung: Verbessert die Gesichtsqualität während der Animation durch Optimierung basierend auf der Hamilton-Jacobi-Bellman-Gleichung.
Code-Repository: Verfügbar auf GitHub unter Francis-Rings/StableAnimator.

SynCamMaster: Synchronisierung der Multi-Kamera-Videoerzeugung

Beschreibung: Fortschritte in Videodiffusionsmodellen für konsistente Multi-Kamera-Videoerzeugung.
Code-Repository: Verfügbar auf GitHub unter kwaivgi/syncammaster.

Lernen von Flussfeldern in Attention für kontrollierbare Personenerzeugung

Beschreibung: Verbessert die Leistung von Diffusionsmodellen mit einem modellagnostischen Verlust.
Code-Repository: Verfügbar auf GitHub unter franciszzj/leffa.

Neuronale Lokalisierungsfelder für kontinuierliche 3D-Menschenpose- und Formschätzung

Beschreibung: Übergang vom Einzelbild-3D-Menschenmodellieren zu einem datenzentrierten Paradigma.
Code-Repository: Verfügbar auf GitHub unter isarandi/nlf.

Video Seal: Offenes und effizientes Video-Watermarking

Beschreibung: Führt ein Framework für neuronales Video-Watermarking ein.
Code-Repository: Verfügbar auf GitHub unter facebookresearch/videoseal.

HunyuanVideo: Ein systematisches Framework für große Video-Generierungsmodelle

Beschreibung: Ein Open-Source-Modell, das hohe Leistung in der Videoerzeugung demonstriert.
Code-Repository: Verfügbar auf GitHub unter tencent/hunyuanvideo.

LLMs-as-Judges: Eine umfassende Übersicht über LLM-basierte Bewertungsmethoden

Beschreibung: Analysiert die Einschränkungen von LLM-Richtern und zukünftige Richtungen.
Code-Repository: Verfügbar auf GitHub unter cshaitao/awesome-llms-as-judges.