728x90 반응형 전체 글54 05장. MLM (문제 5장에서는 BERT, DistilBERT, ALBERT와 같은 모델을 활용하여 Hugging Face의 pipeline으로 [MASK] 토큰의 단어를 예측하는 방법과 각 모델의 특징을 소개한다. 이를 통해 MLM(Masked Language Model) 작업의 기본 사용법과 모델 간의 성능 차이를 이해할 수 있다. 문제24. BERT 로딩 MLM 파이프라인bert-base-uncased 모델을 사용해서 다음 [MASK] 토큰의 단어를 예측해보세요." MLM and NSP is the [MASK] task of BERT." BERT란?BERT(Bidirectional Encoder Representations from Transformers)는 Google에서 개발한 사전학습 언어 모델로, 양방향 학습을.. 2024. 11. 28. 04장. GPT를 활용한 작문 (문제17-23) 4장에서는 Hugging Face의 다양한 GPT 모델을 다루는 방법을 배우고 학습 예제를 제공한다. 각 모델의 특징과 활용 사례를 살펴보며, 이를 활용한 작문과 자연어 처리 기법을 배울 수 있다. 문제17. GPT-Neo 작문 환경 설정허깅페이스 모델 헙(hub)에는 Eleuther AI/gpt-neo repository에 의해 공개된 사전학습 모델인 Eleuther AI/gpt-neo-1.3B 모델이 있습니다. 이는 GPT2 혹은 GPT3의 오픈소스 버전입니다. 이를 사용하기 위해 관련 라이브러리인 트랜스포머스와 sentencepiece를 설치하라. 그리고 모델과 토크나이저를 불러오세요. GPT-Neo란?GPT-Neo는 EleutherAI에서 개발한 오픈소스 언어 모델로, GPT-2 및 GPT-.. 2024. 11. 27. 02장. DistilBERT 파인튜닝 및 평가 (문제12~13) 문제12. Trainer 클래스 사전학습문제4부터 11까지의 과정에 기반한 Trainer클래스를 인스턴스화하고 파인튜닝하세요. 키워드 인수로 model, args, train_dataset, eval_dataset을 명확하게 전달하세요. 그리고 파인튜닝 전후에 다음 세 문장 각각의 극성 판별 결과를 비교하세요.1. "I feel fantastic"2. "My life is going something wrong"3. "I have not figured out what the chosen title has to do with the movie" 먼저 파인튜닝 전에 세 문장의 극성 판별 결과는 다음과 같다.여기서 파인튜닝을 하지 않은 모델이 두,세 번째 입력 문장 극성을 잘못 판정하고 있음에 유의하자. #.. 2024. 11. 26. 5장. 정렬(1) - 퀵정렬이란? 퀵 정렬피벗을 기준으로 좌우를 나누는 특징 때문에 파티션 교환 정렬이라고도 불린다.병렬 정렬과 마찬가리고 분할 정복 알고리즘피벗이라는 개념을 통해 피벗보다 작으면 왼쪽, 크면 오른쪽과 같은 방식으로 파티셔닝하면서 쪼개 나간다.이 중에서도 로무토 파티션이란 항상 맨 오른쪽의 피벗을 택하는 단순한 방식으로, 토니 호어가 고안한 최초의 퀵 정렬 알고리즘보다 훨씬 더 간결하고 이해하기 쉽기 때문에 퀵 정렬 소개 시 항상 맨 처음에 언급됨 퀵 정렬 수도코드Quicksort(A, lo, hi) if lo 기본 조건 확인: Quicksort(A, lo, hi)는 lo 피벗 분할:partition(A, lo, hi) 함수는 A[lo]부터 A[hi]까지의 구간에서 피벗을 기준으로 요소들을 나눈다.이 함수는 피벗 위치를.. 2024. 11. 25. 02장. DistilBERT 파인튜닝 및 평가 (문제8~11) 문제8. 데이터세트 클래스 생성Torch.utils.data.Dataset을 상속하는 IMDbFDataset이라는 클래스를 작성하세요. 그리고 문제 7의 IMDB 데이터세트에서 생성한 학습, 검증, 테스트 데이터세트를 입력해서 이 클래스를 인스턴스화합니다. 클래스 및 인스턴스화 개념은 문제2를 참고하세요. 상속이란? 클래스를 생성할 때 다른 클래스의 기능을 가져다 쓰는 것을 상속이라고 합니다. 예를 들어 20층 건물을 지을 때, 타 고층 빌딩의 설계도를 참고하면 도움이 됩니다. 엘리베이터 기능, 공조 기능, 지진 설계 등을 빌려와 쓸 수 있다면 시간과 노력이 절감됩니다. 즉, 객체 A를 짓는 설계도 클래스의 기능을 물려받아 객체 B를 짓는 설계도 클래스에서 그대로 사용한다는 개념이 바로 상속입니다. .. 2024. 11. 24. 02장. DistilBERT 파인튜닝 및 평가 (문제4~7) 문제4. IMDB 데이터세트IMDB 데이터세트는 영화 리뷰 코멘트의 긍정/부정 감성을 판단하기 위해 사용하는 감성 분석 데이터세트이다. - 25,000개 학습 데이터 (텍스트 및 레이블)- 25,000개 테스트 데이터 (텍스트 및 레이블)50,000개 데이터세트를 다운로드하고, 학습과 테스트를 위해 랜덤하게 1,000개씩 데이터를 추출하여 리스트 형식으로 저장하시오. torchtext는 Pytorch의 자연어 전처리용 라이브러리이다. 이를 이용하면 데이터를 얻을 수 있다. !pip install torchtext==0.15.2!pip install portalocker==2.7.0!pip install accelerate -U from torchtext.datasets import IMDBtrain_i.. 2024. 11. 23. 8장 연결리스트 (1) - 연결리스트란? (예제 - 회문 판별) 연결 리스트(Linked List)연결 리스트(Linked List)는 배열과 함께 대표적인 선형 자료구조로, 다양한 추상 자료형(ADT) 구현의 기반이 됩니다. 이 구조는 동적으로 새로운 노드를 삽입하거나 삭제하기가 용이하며, 물리 메모리를 연속적으로 사용하지 않아도 되므로 메모리 관리에도 유리합니다. 연결 리스트의 특징동적 메모리 관리: 물리적으로 연속적이지 않아도 되므로 메모리 활용도가 높습니다.삽입/삭제의 효율성: 시작 또는 끝에 데이터를 삽입하거나 삭제하는 작업은 O(1)에 가능합니다.탐색의 비효율성: 특정 인덱스에 접근하려면 순차적으로 읽어야 하므로 탐색 시간은 O(n)입니다. 문제. 연결 리스트로 Palindrome(회문) 검사하기- 입력: 1->2 / 출력: False- 입력: 1->2-.. 2024. 11. 22. 01장. 파이프라인 (감성 분석, 질의 응답 with DistilBERT) 문제2. 감성 분석 - DistilBert 모델 사용Distilbert 모델을 사용하여 감성 분석을 실행하는 문제이다. 다음 나열된 입력 문장들이 긍정인지 부정인지 판단하세요.(1) " I like Olympic games as it's very exciting." (나는 올림픽이 흥미진진하기 때문에 좋아합니다.)(2) " I'm against to hold Olympic games in Tokyo in terms of preventing the covid19 to be spread." (나는 코비드19 확산 방지 차원에서 도쿄 올림픽 개최를 반대합니다.) 문제2는 허깅 페이스의 transformers 라이브러리를 활용하여 DistilBERT 모델을 사용한 감성 분석을 수행한다.감성 분석은 텍스트에서 감.. 2024. 11. 21. 이전 1 2 3 4 ··· 7 다음 728x90 반응형