Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2403.07691

Contains some information and experiments fine-tuning LLMs using 🤗 `trl.ORPOTrainer`

about 1 hour ago

ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72
HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1

Text Generation • 141B • Updated Apr 18, 2024 • 221 • 269
alvarobartt/mistral-orpo-mix

Text Generation • 7B • Updated Mar 24, 2024 • 3 • 1
alvarobartt/Mistral-7B-v0.1-ORPO

Text Generation • 7B • Updated Mar 23, 2024 • 13 • 14

Foundation AI Papers (II)

Iterative Reasoning Preference Optimization

Paper • 2404.19733 • Published Apr 30, 2024 • 49
Better & Faster Large Language Models via Multi-token Prediction

Paper • 2404.19737 • Published Apr 30, 2024 • 81
ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72
KAN: Kolmogorov-Arnold Networks

Paper • 2404.19756 • Published Apr 30, 2024 • 116

alignment-learning

Dataset Reset Policy Optimization for RLHF

Paper • 2404.08495 • Published Apr 12, 2024 • 9
ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72

ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72

Papers - Fine-tuning - Orpo

ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72

alignment_24_best

KTO: Model Alignment as Prospect Theoretic Optimization

Paper • 2402.01306 • Published Feb 2, 2024 • 21
Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Paper • 2305.18290 • Published May 29, 2023 • 64
SimPO: Simple Preference Optimization with a Reference-Free Reward

Paper • 2405.14734 • Published May 23, 2024 • 12
Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment

Paper • 2408.06266 • Published Aug 12, 2024 • 10

ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72

Audio Reading - 2403.07691 - ORPO Fine-tuning

Read by Bark: https://drive.google.com/file/d/1no3kjSmexQxlS-KjhRB0jB5hz72Yuhsb/view?usp=sharing

ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72

Papers - KAIST AI

ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72
ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models

Paper • 2404.07738 • Published Apr 11, 2024 • 2
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

Paper • 2405.01535 • Published May 2, 2024 • 124

Models and datasets to align LLMs with Odds Ratio Preference Optimisation (ORPO). Recipes here: https://github.com/huggingface/alignment-handbook

ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72
HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1

Text Generation • 141B • Updated Apr 18, 2024 • 221 • 269
argilla/distilabel-capybara-dpo-7k-binarized

Viewer • Updated Jul 16, 2024 • 7.56k • 1.13k • 182

Contains some information and experiments fine-tuning LLMs using 🤗 `trl.ORPOTrainer`

about 1 hour ago

ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72
HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1

Text Generation • 141B • Updated Apr 18, 2024 • 221 • 269
alvarobartt/mistral-orpo-mix

Text Generation • 7B • Updated Mar 24, 2024 • 3 • 1
alvarobartt/Mistral-7B-v0.1-ORPO

Text Generation • 7B • Updated Mar 23, 2024 • 13 • 14

alignment_24_best

KTO: Model Alignment as Prospect Theoretic Optimization

Paper • 2402.01306 • Published Feb 2, 2024 • 21
Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Paper • 2305.18290 • Published May 29, 2023 • 64
SimPO: Simple Preference Optimization with a Reference-Free Reward

Paper • 2405.14734 • Published May 23, 2024 • 12
Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment

Paper • 2408.06266 • Published Aug 12, 2024 • 10

Foundation AI Papers (II)

Iterative Reasoning Preference Optimization

Paper • 2404.19733 • Published Apr 30, 2024 • 49
Better & Faster Large Language Models via Multi-token Prediction

Paper • 2404.19737 • Published Apr 30, 2024 • 81
ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72
KAN: Kolmogorov-Arnold Networks

Paper • 2404.19756 • Published Apr 30, 2024 • 116

ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72

alignment-learning

Dataset Reset Policy Optimization for RLHF

Paper • 2404.08495 • Published Apr 12, 2024 • 9
ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72

Audio Reading - 2403.07691 - ORPO Fine-tuning

Read by Bark: https://drive.google.com/file/d/1no3kjSmexQxlS-KjhRB0jB5hz72Yuhsb/view?usp=sharing

ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72

ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72

Papers - KAIST AI

ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72
ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models

Paper • 2404.07738 • Published Apr 11, 2024 • 2
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

Paper • 2405.01535 • Published May 2, 2024 • 124

Papers - Fine-tuning - Orpo

ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72

Models and datasets to align LLMs with Odds Ratio Preference Optimisation (ORPO). Recipes here: https://github.com/huggingface/alignment-handbook

ORPO: Monolithic Preference Optimization without Reference Model

Paper • 2403.07691 • Published Mar 12, 2024 • 72
HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1

Text Generation • 141B • Updated Apr 18, 2024 • 221 • 269
argilla/distilabel-capybara-dpo-7k-binarized

Viewer • Updated Jul 16, 2024 • 7.56k • 1.13k • 182

Previous
1
2
Next

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs