Models
Datasets
Spaces
Buckets new
Docs
Enterprise
Pricing
- Website
- Community
- Solutions
Log In
Sign Up

Audio Course documentation

코스에 대한 이해도를 체크해보세요

Audio Course

0단원. 코스에 오신 것을 환영합니다!

1단원. 오디오 데이터 다루기

학습할 내용들 오디오 데이터에 대하여 오디오 데이터셋 불러오기 및 탐색하기 오디오 데이터 전처리하기 오디오 데이터 스트리밍하기 퀴즈 참고자료들

2단원. 오디오의 응용에 대한 소개

3단원. 오디오용 트랜스포머 아키텍처

코스 이벤트

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

코스에 대한 이해도를 체크해보세요

1. 샘플링 속도는 어떤 단위를 사용합니까?

dB Hz bit

2. 큰 오디오 데이터셋을 스트리밍한다면 어느 시점부터 이를 사용할 수 있습니까?

모든 데이터셋이 다운로드되는 순간. 처음 16개의 데이터가 다운로드되는 순간. 첫번째 데이터가 다운로드되는 순간.

3. 스펙트로그램이란 무엇인가요?

마이크에서 캡처된 오디오를 디지털화하는데 사용하는 장치로, 음파를 전기 신호로 변환합니다. 오디오 신호의 진폭이 시간에 따라 변하는 것을 그린 것. 소리의 *시간 영역* 표현 이라고도 합니다. 주파수 스펙트럼이 시간에 따라 변화하는 것을 시각적으로 나타낸 것.

4. 원시 오디오 데이터를 Whisper에 적합한 로그-멜 스펙트로그램으로 변환하는 가장 쉬운 방법은?

A.

librosa.feature.melspectrogram(audio["array"])

B.

feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-small")
feature_extractor(audio["array"])

C.

dataset.feature(audio["array"], model="whisper")

A B C

5. 🤗 허브에서 데이터셋을 불러오는 방법은?

A.

from datasets import load_dataset

dataset = load_dataset(DATASET_NAME_ON_HUB)

B.

import librosa

dataset = librosa.load(PATH_TO_DATASET)

C.

from transformers import load_dataset

dataset = load_dataset(DATASET_NAME_ON_HUB)

A B C

6. 32 kHz의 샘플링 속도를 가진 고품질 오디오 데이터셋으로 16 kHz 샘플링 속도를 요구하는 음성 인식 모델을 학습하고자 합니다. 그렇다면 무엇을 해야합니까?

데이터를 그대로 사용한다. 모델은 고품질 데이터를 쉽게 일반화할 수 있을 것이므로. 🤗 Datasets 라이브러리의 Audio 모듈을 이용하여 다운샘플링을 한다. 다른 모든 샘플들을 버려서 2배 다운샘플링이 되도록 한다.

7. 머신러닝 모델에 의해 만들어진 스펙트로그램을 파형으로 바꾸는 방법으로 옳은 것은?

vocoder라는 신경망을 이용해 스펙트로그램에서 파형을 재구성한다. 역 STFT를 이용해 스펙트로그램을 파형으로 바꾼다. 머신러닝 모델에 의해 만들어진 스펙트로그램은 다시 파형으로 되돌릴 수 없습니다.

Update on GitHub

←오디오 데이터 스트리밍하기

코스에 대한 이해도를 체크해보세요 1. 샘플링 속도는 어떤 단위를 사용합니까?2. 큰 오디오 데이터셋을 스트리밍한다면 어느 시점부터 이를 사용할 수 있습니까?3. 스펙트로그램이란 무엇인가요?4. 원시 오디오 데이터를 Whisper에 적합한 로그-멜 스펙트로그램으로 변환하는 가장 쉬운 방법은?5. 🤗 허브에서 데이터셋을 불러오는 방법은?6. 32 kHz의 샘플링 속도를 가진 고품질 오디오 데이터셋으로 16 kHz 샘플링 속도를 요구하는 음성 인식 모델을 학습하고자 합니다. 그렇다면 무엇을 해야합니까?7. 머신러닝 모델에 의해 만들어진 스펙트로그램을 파형으로 바꾸는 방법으로 옳은 것은?