Gemma 4 with Vietnam Legal Documents
Collection
4 items • Updated • 1
How to use YuITC/vietnamese-embedding-vn-legal with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("YuITC/vietnamese-embedding-vn-legal")
sentences = [
"Hàng xóm làm hàng rào lấn đất thì có nộp đơn yêu cầu UBND xã tiến hành hòa giải được hay không?",
"Điều 6.\na) Những người dân khu vực biên giới Bên này không được sang khu vực biên giới Bên kia cư trú, làm nhà, canh tác, lây lâm thổ sản, săn bắn, chăn trâu bò, gia cầm v.v…, đánh cá, bắt tôm trừ trường hợp được phép của chính quyền hai Bên từ cấp huyện trở lên. Trường hợp sang khu vực biên giới Bên kia cư trú, làm nhà trái với quy định này sau khi Hiệp định này có hiệu lực thì đương sự phải dỡ nhà, trở về nước mình trong vòng sáu tháng.\nb) Trường hợp đang sản xuất tại khu vực biên giới Bên kia khi Hiệp định này có hiệu lực và không được phép tiếp tục nữa, nếu là hoa màu và cây lâu năm chưa kịp thu hoạch thì đương sự được phép tiếp tục qua biên giới để chăm sóc cho đến khi thu hoạch xong và chỉ được làm và thu hoạch hết vụ đó. Đối với cây lâu năm chậm nhất một năm sau khi Hiệp định này có hiệu lực, đương sự phải nhượng lại cho chính quyền địa phương sở tại và chính quyền địa phương sở tại cần xem xét việc bồi thường cho đương sự theo giá thỏa thuận.\nc) Trong lúc tiến hành các hoạt động sản xuất nói trên ở khu vực biên giới Bên kia, đương sự phải tuân theo luật lệ của Bên kia.",
"“Điều 11. Xử phạt các hành vi vi phạm khác về quy tắc giao thông đường bộ\n...\n6. Phạt tiền từ 400.000 đồng đến 600.000 đồng đối với người được chở trên xe mô tô, xe gắn máy (kể cả xe máy điện), các loại xe tương tự xe mô tô, các loại xe tương tự xe gắn máy, xe đạp máy (kể cả xe đạp điện) thực hiện một trong các hành vi vi phạm sau đây:\na) Bám, kéo, đẩy xe khác, vật khác, dẫn dắt súc vật, mang vác vật cồng kềnh, đứng trên yên, giá đèo hàng hoặc ngồi trên tay lái;\nb) Không đội “mũ bảo hiểm cho người đi mô tô, xe máy” hoặc đội “mũ bảo hiểm cho người đi mô tô, xe máy” không cài quai đúng quy cách khi tham gia giao thông trên đường bộ.\n...”",
"\"Điều 202. Hòa giải tranh chấp đất đai\n1. Nhà nước khuyến khích các bên tranh chấp đất đai tự hòa giải hoặc giải quyết tranh chấp đất đai thông qua hòa giải ở cơ sở.\n2. Tranh chấp đất đai mà các bên tranh chấp không hòa giải được thì gửi đơn đến Ủy ban nhân dân cấp xã nơi có đất tranh chấp để hòa giải.\n3. Chủ tịch Ủy ban nhân dân cấp xã có trách nhiệm tổ chức việc hòa giải tranh chấp đất đai tại địa phương mình; trong quá trình tổ chức thực hiện phải phối hợp với Ủy ban Mặt trận Tổ quốc Việt Nam cấp xã và các tổ chức thành viên của Mặt trận, các tổ chức xã hội khác. Thủ tục hòa giải tranh chấp đất đai tại Ủy ban nhân cấp xã được thực hiện trong thời hạn không quá 45 ngày, kể từ ngày nhận được đơn yêu cầu giải quyết tranh chấp đất đai.\n4. Việc hòa giải phải được lập thành biên bản có chữ ký của các bên và có xác nhận hòa giải thành hoặc hòa giải không thành của Ủy ban nhân dân cấp xã. Biên bản hòa giải được gửi đến các bên tranh chấp, lưu tại Ủy ban nhân dân cấp xã nơi có đất tranh chấp.\n5. Đối với trường hợp hòa giải thành mà có thay đổi hiện trạng về ranh giới, người sử dụng đất thì Ủy ban nhân dân cấp xã gửi biên bản hòa giải đến Phòng Tài nguyên và Môi trường đối với trường hợp tranh chấp đất đai giữa hộ gia đình, cá nhân, cộng đồng dân cư với nhau; gửi đến Sở Tài nguyên và Môi trường đối với các trường hợp khác.\nPhòng Tài nguyên và Môi trường, Sở Tài nguyên và Môi trường trình Ủy ban nhân dân cùng cấp quyết định công nhận việc thay đổi ranh giới thửa đất và cấp mới Giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất.\""
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from AITeamVN/Vietnamese_Embedding. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for retrieval.
SentenceTransformer(
(0): Transformer({'transformer_task': 'feature-extraction', 'modality_config': {'text': {'method': 'forward', 'method_output_name': 'last_hidden_state'}}, 'module_output_name': 'token_embeddings', 'architecture': 'XLMRobertaModel'})
(1): Pooling({'embedding_dimension': 1024, 'pooling_mode': 'cls', 'include_prompt': True})
(2): Normalize({})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'Khi mở sổ, ghi sổ, khóa sổ và lưu trữ sổ kế toán thì doanh nghiệp siêu nhỏ phải thực hiện theo những quy định nào?',
'Sổ kế toán\n1. Nội dung sổ kế toán, hệ thống sổ kế toán, việc mở sổ, ghi sổ, khóa sổ, lưu trữ sổ kế toán và sửa chữa sổ kế toán tại doanh nghiệp siêu nhỏ được thực hiện theo quy định tại Điều 24, Điều 25, Điều 26, 27 Luật kế toán và hướng dẫn cụ thể tại Thông tư này.',
'"Điều 147. Thế chấp dự án đầu tư xây dựng nhà ở và thế chấp nhà ở hình thành trong tương lai\n1. Chủ đầu tư dự án xây dựng nhà ở được thế chấp dự án hoặc nhà ở xây dựng trong dự án tại tổ chức tín dụng đang hoạt động tại Việt Nam để vay vốn cho việc đầu tư dự án hoặc xây dựng nhà ở đó; trường hợp chủ đầu tư đã thế chấp nhà ở mà có nhu cầu huy động vốn góp để phân chia nhà ở theo quy định của pháp luật về nhà ở hoặc có nhu cầu bán, cho thuê mua nhà ở đó thì phải giải chấp nhà ở này trước khi ký hợp đồng huy động vốn góp, hợp đồng mua bán, thuê mua nhà ở với khách hàng, trừ trường hợp được bên góp vốn, bên mua, thuê mua nhà ở và bên nhận thế chấp đồng ý.\nViệc xác định nhà ở đã được giải chấp trước khi ký hợp đồng huy động vốn góp, hợp đồng mua bán, thuê mua nhà ở với khách hàng theo quy định tại khoản này được nêu rõ trong văn bản thông báo nhà ở đủ điều kiện được bán của cơ quan quản lý nhà ở cấp tỉnh nơi có nhà ở.\n2. Tổ chức, cá nhân xây dựng nhà ở hình thành trong tương lai trên thửa đất ở hợp pháp của mình; tổ chức, cá nhân mua nhà ở hình thành trong tương lai trong dự án đầu tư xây dựng nhà ở của chủ đầu tư được thế chấp nhà ở này tại tổ chức tín dụng đang hoạt động tại Việt Nam để vay vốn phục vụ cho xây dựng nhà ở hoặc để mua chính nhà ở đó."',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000, 0.8255, -0.0291],
# [ 0.8255, 1.0000, -0.0851],
# [-0.0291, -0.0851, 1.0000]])
val_irInformationRetrievalEvaluator| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.906 |
| cosine_accuracy@3 | 0.976 |
| cosine_accuracy@5 | 0.99 |
| cosine_accuracy@10 | 0.996 |
| cosine_precision@1 | 0.906 |
| cosine_precision@3 | 0.3493 |
| cosine_precision@5 | 0.214 |
| cosine_precision@10 | 0.1082 |
| cosine_recall@1 | 0.8642 |
| cosine_recall@3 | 0.9677 |
| cosine_recall@5 | 0.9845 |
| cosine_recall@10 | 0.9932 |
| cosine_ndcg@1 | 0.906 |
| cosine_ndcg@3 | 0.9414 |
| cosine_ndcg@5 | 0.9489 |
| cosine_ndcg@10 | 0.952 |
| cosine_mrr@1 | 0.906 |
| cosine_mrr@3 | 0.9385 |
| cosine_mrr@5 | 0.9417 |
| cosine_mrr@10 | 0.9426 |
| cosine_map@100 | 0.9362 |
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
Văn phòng Chính phủ là cơ quan thực hiện nhiệm vụ phát ngôn của Chính phủ có đúng không? |
Nhiệm vụ và quyền hạn |
| ... | |
| 5. Về cung cấp thông tin cho công chúng | |
| a) Cung cấp thông tin cho công chúng về các hoạt động chủ yếu, những quyết định quan trọng trong lãnh đạo, chỉ đạo, điều hành của Chính phủ, Thủ tướng Chính phủ, những sự kiện chính trị, kinh tế, xã hội nổi bật và các thông tin khác theo quy định của pháp luật và chỉ đạo của Thủ tướng Chính phủ; | |
| b) Thực hiện nhiệm vụ phát ngôn của Chính phủ, Thủ tướng Chính phủ; | |
| c) Chủ trì, phối hợp với các bộ, ngành, Ủy ban nhân dân cấp tỉnh, các cơ quan, tổ chức liên quan tổ chức họp báo Chính phủ, cung cấp thông tin cho báo chí định kỳ, đột xuất; tham mưu trả lời phỏng vấn báo chí của Thủ tướng Chính phủ; thực hiện thông cáo báo chí theo quy định của pháp luật; | |
| d) Yêu cầu các cơ quan liên quan hiệu chỉnh, cơ quan báo chí cải chính, hiệu chỉnh nội dung thông tin không chính xác, chưa phù hợp với yêu cầu lãnh đạo, chỉ đạo, điều hành của Chính phủ, Thủ tướng Chính phủ theo quy định của pháp luật; | |
| đ) Thực hiện quản lý nhà nước về công báo... | |
Đỗ xe trên dốc cầu Rạch Chiếc mà không chèn bánh thì bị xử phạt bao nhiêu tiền? |
"Điều 5. Xử phạt người điều khiển xe ô tô và các loại xe tương tự xe ô tô vi phạm quy tắc giao thông đường bộ |
| .... | |
| 2. Phạt tiền từ 400.000 đồng đến 600.000 đồng đối với người điều khiển xe thực hiện một trong các hành vi vi phạm sau đây: | |
| a) Chuyển làn đường không đúng nơi cho phép hoặc không có tín hiệu báo trước, trừ các hành vi vi phạm quy định tại điểm g khoản 5 Điều này; | |
| b) Điều khiển xe chạy tốc độ thấp hơn các xe khác đi cùng chiều mà không đi về bên phải phần đường xe chạy, trừ trường hợp các xe khác đi cùng chiều chạy quá tốc độ quy định; | |
| c) Chở người trên buồng lái quá số lượng quy định; | |
| d) Không tuân thủ các quy định về nhường đường tại nơi đường bộ giao nhau, trừ các hành vi vi phạm quy định tại điểm m, điểm n khoản 3 Điều này; | |
| đ) Điều khiển xe có liên quan trực tiếp đến vụ tai nạn giao thông mà không dừng lại, không giữ nguyên hiện trường, không tham gia cấp cứu người bị nạn, trừ hành vi vi phạm quy định tại điểm b khoản 8 Điều này; | |
| e) Xe được quyền ưu tiên lắp đặt, sử dụng... | |
Phẫu thuật kết hợp xương gãy khung chậu chỉ định trong những trường hợp nào? |
PHẪU THUẬT KHX GÃY KHUNG CHẬU - TRẬT KHỚP MU |
CachedMultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"mini_batch_size": 64,
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
per_device_train_batch_size: 64num_train_epochs: 1learning_rate: 1e-05lr_scheduler_type: cosine_with_restartswarmup_steps: 100weight_decay: 0.01bf16: Trueload_best_model_at_end: Truedataloader_num_workers: 16dataloader_persistent_workers: Truebatch_sampler: no_duplicatesper_device_train_batch_size: 64num_train_epochs: 1max_steps: -1learning_rate: 1e-05lr_scheduler_type: cosine_with_restartslr_scheduler_kwargs: Nonewarmup_steps: 100optim: adamw_torchoptim_args: Noneweight_decay: 0.01adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08optim_target_modules: Nonegradient_accumulation_steps: 1average_tokens_across_devices: Truemax_grad_norm: 1.0label_smoothing_factor: 0.0bf16: Truefp16: Falsebf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Nonetorch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneuse_liger_kernel: Falseliger_kernel_config: Noneuse_cache: Falseneftune_noise_alpha: Nonetorch_empty_cache_steps: Noneauto_find_batch_size: Falselog_on_each_node: Truelogging_nan_inf_filter: Trueinclude_num_input_tokens_seen: nolog_level: passivelog_level_replica: warningdisable_tqdm: Falseproject: huggingfacetrackio_space_id: trackioper_device_eval_batch_size: 8prediction_loss_only: Trueeval_on_start: Falseeval_do_concat_batches: Trueeval_use_gather_object: Falseeval_accumulation_steps: Noneinclude_for_metrics: []batch_eval_metrics: Falsesave_only_model: Falsesave_on_each_node: Falseenable_jit_checkpoint: Falsepush_to_hub: Falsehub_private_repo: Nonehub_model_id: Nonehub_strategy: every_savehub_always_push: Falsehub_revision: Noneload_best_model_at_end: Trueignore_data_skip: Falserestore_callback_states_from_checkpoint: Falsefull_determinism: Falseseed: 42data_seed: Noneuse_cpu: Falseaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedataloader_drop_last: Falsedataloader_num_workers: 16dataloader_pin_memory: Truedataloader_persistent_workers: Truedataloader_prefetch_factor: Noneremove_unused_columns: Truelabel_names: Nonetrain_sampling_strategy: randomlength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falseddp_backend: Noneddp_timeout: 1800fsdp: []fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}deepspeed: Nonedebug: []skip_memory_metrics: Truedo_predict: Falseresume_from_checkpoint: Nonewarmup_ratio: Nonelocal_rank: -1prompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss | val_ir_cosine_ndcg@10 |
|---|---|---|---|
| 0 | 0 | - | 0.8719 |
| 0.0303 | 50 | 0.1413 | - |
| 0.0605 | 100 | 0.0658 | - |
| 0.0908 | 150 | 0.0637 | - |
| 0.1211 | 200 | 0.0550 | - |
| 0.1513 | 250 | 0.0666 | - |
| 0.1816 | 300 | 0.0702 | - |
| 0.2119 | 350 | 0.0538 | - |
| 0.2421 | 400 | 0.0541 | - |
| 0.2724 | 450 | 0.0506 | - |
| 0.3027 | 500 | 0.0520 | 0.9434 |
| 0.3329 | 550 | 0.0491 | - |
| 0.3632 | 600 | 0.0520 | - |
| 0.3935 | 650 | 0.0512 | - |
| 0.4237 | 700 | 0.0505 | - |
| 0.4540 | 750 | 0.0505 | - |
| 0.4843 | 800 | 0.0448 | - |
| 0.5145 | 850 | 0.0529 | - |
| 0.5448 | 900 | 0.0455 | - |
| 0.5751 | 950 | 0.0450 | - |
| 0.6053 | 1000 | 0.0429 | 0.9514 |
| 0.6356 | 1050 | 0.0376 | - |
| 0.6659 | 1100 | 0.0434 | - |
| 0.6961 | 1150 | 0.0451 | - |
| 0.7264 | 1200 | 0.0427 | - |
| 0.7567 | 1250 | 0.0448 | - |
| 0.7869 | 1300 | 0.0442 | - |
| 0.8172 | 1350 | 0.0426 | - |
| 0.8475 | 1400 | 0.0518 | - |
| 0.8777 | 1450 | 0.0372 | - |
| 0.9080 | 1500 | 0.0473 | 0.9520 |
| 0.9383 | 1550 | 0.0350 | - |
| 0.9685 | 1600 | 0.0426 | - |
| 0.9988 | 1650 | 0.0378 | - |
| 1.0 | 1652 | - | 0.952 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}