테크트리(TechTree)

BitNet, 마이크로소프트의 역작 - 엣지 컴퓨팅은 이제부터 시작된다 본문

기타 정보, 리뷰/앱, 소프트웨어

BitNet, 마이크로소프트의 역작 - 엣지 컴퓨팅은 이제부터 시작된다

Alternative_TechTree 2025. 5. 1. 20:55

https://github.com/microsoft/BitNet

 

GitHub - microsoft/BitNet: Official inference framework for 1-bit LLMs

Official inference framework for 1-bit LLMs. Contribute to microsoft/BitNet development by creating an account on GitHub.

github.com

 

안녕하세요, Alternative입니다.

마이크로소프트가 BitNet이라는 실험적 언어 모델을 실제로 출시했습니다.

2023년부터 연구하던 건데, 목표는 무려 가중치를 1비트로 표현하는 것입니다.

 

기존에는 결과값에 대한 가중치(Weight)를 주는 데에 각각 16 또는 32비트 (FP16/32)가 필요했는데 이걸 1비트(-1/1)로 극단적으로 줄인 것입니다.

물론 아직까지 완벽하게 1비트로 구현하기에는 정밀도의 문제가 있어서, 대안으로 -1, 0, 1의 3가지 상태를 사용하는 방법을 도입했습니다. 따라서 현재는 가중치가 평균 1.58비트입니다. (log 2의 3 -> 약 1.58)

가중치를 극단적으로 줄인 대신 파라미터는 2B로 중급, 훈련된 토큰은 4T(4조)개로 상당히 많습니다. 떨어지는 정밀도를 보완하기 위해 토큰을 크게 늘려 학습을 많이 시킨 것 같아요.

 

가중치 다이어트를 통해 얻은 건

- 메모리 사용량 대폭 감소: 유사한 1-2B 파라미터의 모델들의 1/5 - 1/10 수준입니다. 평균적으로 고작 400MB(!)밖에 필요하지 않습니다.

- 에너지 효율성도 최소 10배 정도고요.

- 연산에 GPU가 필요하지 않습니다 (!) CPU만으로 추론이 됩니다. 가중치가 줄어들어 벡터 곱연산이 매우 줄어들어서 가능합니다. 1비트를 달성하면 합연산만 사용해도 됩니다.

 

Qwen 2.5 int4가 4bit 가중치로 700MB의 메모리 사용량을 내놓았을 때에도 혁신으로 평가받았는데,

BitNet b1.58은 성능, 자원, 응답속도 등 모든 면에서 Qwen보다 낫습니다.

 

실제로 애플 M2 베이스 모델에서도 굉장히 Respectable한 속도가 나옵니다. 직접 사용해보니 답변도 조금 어색하긴 하지만 그래도 체감상 GPT 3.5T와 4 사이는 되는 것 같습니다.

https://private-user-images.githubusercontent.com/54800242/377447164-7f46b736-edec-4828-b809-4be780a3e5b1.mp4?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3NDYwOTk4MTgsIm5iZiI6MTc0NjA5OTUxOCwicGF0aCI6Ii81NDgwMDI0Mi8zNzc0NDcxNjQtN2Y0NmI3MzYtZWRlYy00ODI4LWI4MDktNGJlNzgwYTNlNWIxLm1wND9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNTA1MDElMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjUwNTAxVDExMzgzOFomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTk0MzQwMjdiMjE0MWNlYzAwOWZlZWVhMDE1YTc4MDM4NTA3ZmRjYmQ3MTNmYzk0MTMxZGU0MjcwMmY0MjI3ZTgmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.jog4Z_5uy_en8U2yhmAE9cSnZBMIRGF7WUqFhs0zb4U

 

그래서 이게 뭐가 대단하냐고요?

이 정도면 정말 스마트폰에 그대로 집어넣을 수 있습니다.

특정 용도로 최적화한다? 왠만한 안드로이드 앱 정도로 효율적일 수도 있습니다.

엣지 네이티브 AI는 이제 시작입니다.

 

이미 램 늘려버린 애플은 어떡하냐고요?

애플이 모르게 조용히 있어야 합니다. 줬던 램 다시 뺏을 수도 있습니다.

Comments