온디바이스 AI: 칩이 아니라 비용과 사법권이 경계를 긋는다

사진 한 장을 분류하는 연산이 클라우드 서버까지 갔다 오지 않는다. 휴대폰이나 노트북에 내장된 프로세서에서 끝난다. 이것이 온디바이스 AI다. 데이터가 기기를 벗어나지 않으니 프라이버시가 지켜지고, 네트워크 없이 동작하며, 왕복 지연이 사라진다. 보통은 여기까지를 칩과 압축의 이야기로 읽는다. 그러나 무엇을 기기로 내리고 무엇을 서버에 남길지, 그 경계를 실제로 긋는 것은 칩 성능만이 아니다.

두 엔지니어링 축: NPU와 양자화

기기에서 모델을 돌리려면 두 과제를 푼다. 제한된 메모리·전력 안에 모델을 넣는 것(압축), 그리고 그 모델을 충분히 빠르게 실행하는 것(가속).

가속은 NPU가 맡는다. 행렬 곱 같은 신경망 연산에 특화된 칩으로, 한 업계 분석에 따르면 Qualcomm의 최근 SoC 80% 이상에 들어간다. 가속기는 세대마다 갱신된다. 2025년 9월 24일 공개된 Snapdragon 8 Elite Gen 5의 Hexagon NPU에서 INT8 객체탐지는 참조기기 벤치 기준 12~15ms에 끝난다.

압축은 양자화가 맡는다. 가중치 정밀도를 깎아 메모리와 연산량을 줄인다. LLM을 기기에 올리는 방법은 하나로 수렴했다. 16비트로 학습한 뒤 4비트로 양자화해 내보낸다. 2022년 GPTQ, 2023년 AWQ가 4비트로 메모리를 약 4분의 1로 줄이면서 품질 대부분을 보존했고, INT8은 대부분의 실제 용도에서 FP32 대비 손실이 미미하다. 더 멀리 간 사례도 있다. Microsoft가 2025년 4월 공개한 BitNet b1.58은 가중치를 -1, 0, +1 세 값으로만 두는 1.58비트 모델로, 20억 파라미터급에서 임베딩을 뺀 메모리가 0.4GB에 그친다. 같은 급 Gemma-3 1B의 1.4GB와 대비된다.

지금 기기에서 도는 모델

이 두 축 위에서 수십억 파라미터급 모델이 실제 상용 기기에 들어가 있다. sparse 구조는 그중 일부만 활성화한다.

모델	파라미터	메모리/특징	출처·기준일
Apple AFM 3 Core	30억(dense)	온디바이스 기본	Apple 공식, 2026-06
Apple AFM 3 Core Advanced	200억(sparse)	요청당 10~40억만 활성화	Apple 공식, 2026-06
Google Gemini Nano	18억 / 32.5억	4비트 약 1GB (2차 매체 보도 기준)	2차 보도, 2026-06
Microsoft BitNet b1.58	20억	1.58비트, 비임베딩 0.4GB	arXiv, 2025-04

표: 온디바이스 상용·오픈웨이트 모델 규모. 출처 — Apple Machine Learning Research(AFM3)·arXiv 2504.12285(BitNet)·2차 매체 보도(Gemini Nano). 기준일 2025-04~2026-06.

클라우드의 대형 모델과는 체급이 다르다. 그렇다면 질문이 남는다. 기기에서 충분히 작은 모델을 돌릴 수 있다는 것과, 굳이 추론을 기기로 내려야 한다는 것은 다른 문제다. 왜 지금 내리는가.

비용: 추론을 누구의 실리콘이 떠안나

먼저 비용이 답한다. 클라우드 추론 단가는 빠르게 떨어졌다. a16z가 'LLMflation'이라 부른 추세로, GPT-4급 성능의 추론이 2022년 말 100만 토큰당 약 20달러에서 약 0.40달러로, 동급 성능 기준 연 약 10배씩 싸졌다. 하락폭이 일률적이지는 않다. Epoch AI 측정으로는 과제 난도에 따라 연 9배에서 900배까지 갈린다.

단가가 이렇게 싸졌는데도 왜 기기로 내리나. 규모 때문이다. 한 업계 분석은 AI 추론 질의 하나가 전통적 검색보다 한 자릿수 배 비싸, 클라우드 사업자의 질의당 마진을 잠식한다고 본다. 단가가 떨어져도 호출량이 폭증하면 제공자 장부의 추론 비용은 사라지지 않는다.

기기로 내리면 그 비용은 제공자 장부에서 빠지고, 사용자가 이미 값을 치른 칩이 떠안는다. 추론 비용이 제공자의 운영비(opex)에서 사용자 소유 실리콘의 자본비(capex)로 옮겨가는 것이다. Apple이 온디바이스와 자체 Private Cloud Compute를 묶은 하이브리드로 데이터센터 자본지출(그 데이터센터 AI 가속기의 공급 상한은 패키징이 정한다)을 아끼고 AI capex를 경쟁사보다 보수적으로 유지하는 배경이 여기에 있다.

사법권: 데이터가 어느 법 아래 있나

비용과 나란히, 규제가 경계를 다시 긋는다. 온디바이스의 1차 이점인 "데이터가 기기를 벗어나지 않음"이 컴플라이언스 자산이 되기 때문이다.

EU AI Act는 고위험 AI 시스템 의무를 2026년 8월 2일부터 적용한다. 위반 시 제재는 금지관행 기준 최대 글로벌 연매출 7% 또는 3,500만 유로에 이른다. 동시에 데이터의 물리적 위치만으로는 안심할 수 없다. 미국 CLOUD Act는 미국 본사 제공자가 EU에 저장한 데이터까지 미 사법권에 노출시킨다. 2026년 컴플라이언스 해석으로는 "EU 리전의 미국 하이퍼스케일러"를 쓰는 것만으로는 데이터 레지던시를 충족하지 못한다. 한 업계 보도에 따르면 유럽 기업 약 20%가 핵심 데이터를 역내 시설로 되돌리기 시작했다.

데이터가 기기를 떠나지 않으면 이 문제의 상당 부분이 처음부터 발생하지 않는다. 클라우드를 써야 할 때조차 경계는 다시 그어진다. Apple Private Cloud Compute는 요청 처리에만 데이터를 쓰고 종료 후 저장하지 않으며, Apple Silicon과 Secure Enclave 위에서 Apple조차 접근하지 못하게 설계됐다. 온디바이스의 비저장 원칙을 클라우드까지 끌어올린 셈이다.

경계는 누가 긋나

한계는 분명하다. 메모리·전력 제약 탓에 기기에서는 소형 모델 위주로 돌리고, 저비트 양자화는 모델을 가볍게 하는 만큼 정확도를 일부 내준다. INT8 수준에선 손실이 작지만 비트를 더 깎을수록 그 대가는 커진다.

그래서 무엇을 어디서 돌릴지는 칩의 능력만으로 정해지지 않는다. 세 힘이 함께 긋는다. 얼마나 빨라야 하나(지연), 추론 비용을 누가 떠안나(비용 귀착), 데이터가 누구의 법 아래 있나(사법권). 가볍고 즉각적이거나 민감하거나 오프라인이어야 하는 작업은 기기가, 무거운 작업은 서버가 맡는다. 온디바이스 AI는 클라우드를 대체하는 기술이 아니라 둘 사이의 경계를 다시 긋는 기술이다. 그 경계를 긋는 결정은 이제 엔지니어의 손을 떠났다. 비용과 법무와 제품이 함께 내린다.

출처

| # | 매체 (경유) | 원출처 (primary) | 링크 | 기준일 |
|---|---|---|---|---|
| 1 | Apple Machine Learning Research | Apple (3세대 파운데이션 모델) | https://machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models | 2026-06 |
| 2 | Apple Security Research | Apple (Private Cloud Compute) | https://security.apple.com/blog/private-cloud-compute/ | 2024-06 |
| 3 | arXiv | Microsoft (BitNet b1.58 2B4T) | https://arxiv.org/abs/2504.12285 | 2025-04 |
| 4 | a16z | Guido Appenzeller, "LLMflation" | https://a16z.com/llmflation-llm-inference-cost/ | 2024-11 |
| 5 | Epoch AI | Epoch AI (추론 단가 추세) | https://epoch.ai/data-insights/llm-inference-price-trends | 2025 |
| 6 | European Commission | EU AI Act (규제 프레임워크) | https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai | 2026-06 |
| 7 | Lyceum Technology | US CLOUD Act / EU 데이터 레지던시 | https://lyceum.technology/magazine/eu-data-residency-ai-infrastructure/ | 2026-06 |
| 8 | Fortune / Kavout | Apple AI capex·전략 (보도) | https://fortune.com/2026/02/17/why-apple-isnt-spending-big-on-ai-capex-commodity-integration-strategy/ | 2026-02 |
| 9 | Aleph Zero Labs / Google for Developers | NPU·양자화·온디바이스 벤치 | https://www.alephzerolabs.com/blog/on-device-ai-2026-sub-20ms/ | 2026-06 |
| 10 | Android Police | Google Gemini Nano 스펙 (2차 보도) | https://www.androidpolice.com/gemini-nano-guide/ | 2026-06 |