LLM with RAG

NLP

by LYShin 2024. 5. 7. 19:30

본 글은 Retrieval-Augmented Generation에 대한 개념을 적용한 웹 데모 생성을 위한 베이스라인 글 입니다.

해당 프로젝트는 llama_cpp, milvus, gradio, docker를 사용합니다.

1. 구현 컨셉

구현하고자 하는 프로젝트의 컨셉입니다. 먼저, 유저는 Gradio에 접속하여 질문을 입력합니다. 질문은 BGE-M3 모델을 통해 임베딩되고, milvus DB 내부의 문서 중 가장 관련 높은 문서를 찾습니다. 이후 질문과 문서를 LLM에 입력하여 응답을 받아 유저에게 전달합니다.

이 과정에서 구현해야하는 3가지 서버는 gradio, milvus, llama_cpp(llama3)입니다.

베이스라인에서 gradio, milvus는 PC-1, llama3는 PC-2에 구축되며, 두 PC은 같은 망에 속합니다.

2. 구현 순서

1) milvus 서버 구축 & 데이터 적재(with milvus python sdk)

- PC1에 docker compose로 milvus 서버 구축

- milvus server에 collection 생성

- 원본 텍스트를 임베딩하여 DB에 적재(with bge-m3)

2) llama3 서버 구축

- PC2에 docker container 생성

- llama-cpp 서버를 위한 가상환경 구축(with conda)

- llama-cpp 서버 구축 및 fastapi swagger로 구동 확인

3) Gradio 서버 구축 & 서버 간 연결 확인

- PC1에 docker container 생성

- milvus, llama-cpp 서버 간 연결 확인

- gradio 서버 구축

4) 데모 웹에서 결과 확인

** Window 환경에서 구축 / Docker desktop 사용

'NLP' 카테고리의 다른 글

LLM with RAG - LLM server (0)	2024.05.08
LLM with RAG - milvus server (0)	2024.05.07
BERT (0)	2023.01.09
Transformer (0)	2023.01.06
Tokenization (0)	2023.01.04

LanguageData

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

1. 구현 컨셉

2. 구현 순서

1) milvus 서버 구축 & 데이터 적재(with milvus python sdk)

2) llama3 서버 구축

3) Gradio 서버 구축 & 서버 간 연결 확인

4) 데모 웹에서 결과 확인

'NLP' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바