기출 문제

문제 1

도시 병원 네트워크의 공중보건 분석 팀은 대규모 언어 모델(LLMs)을 사용해 20~50페이지 분량의 임상 사고 보고서(PDF)를 읽고 안전성 검토를 위한 핵심 요약을 생성하는 AI 애플리케이션을 구축하려고 합니다. 시스템은 요청당 5초 이내에 상위 주요 발견사항의 간결한 요약(≤200단어)을 반환해야 하며, 최대 10명의 동시 검토자를 지원해야 합니다. 어떤 솔루션이 이러한 요구사항을 충족합니까?

문제 분석

핵심 개념: 이 문제는 명시적인 기능 및 비기능 요구 사항(출력 길이, 지연 시간, 동시성)을 바탕으로 올바른 generative AI 애플리케이션 패턴, 즉 LLM 기반 document summarization을 선택하는지를 평가합니다. AWS 관점에서 이는 일반적으로 foundation model(예: Amazon Bedrock 경유)을 사용하여 긴 문서에 대해 summarization을 수행하는 방식에 해당합니다. 정답인 이유: 팀은 20~50페이지 분량의 PDF를 읽고 요청당 5초 이내에 핵심 findings의 간결한 summary(≤200 words)를 생성하며, 최대 10명의 동시 reviewer를 지원하는 AI 애플리케이션이 필요합니다. Option C는 정확히 이 작업을 수행하는 LLM 기반 summarization assistant를 설명하며, 제약 조건(제한된 summary 길이와 낮은 지연 시간)에도 부합합니다. 다른 옵션들은 서로 다른 ML 작업(NER, recommendations, translation)을 설명하며, 핵심 findings에 대한 간결한 narrative/bulleted summary를 생성해야 한다는 주요 요구 사항을 충족하지 못합니다. 주요 AWS 기능: 일반적인 AWS 구현에서는 PDF를 저장하기 위해 Amazon S3를 사용하고, text extraction(보통 PDF의 경우 Amazon Textract)을 통해 문서를 text로 변환한 뒤, summarization을 위해 LLM(예: 적절한 model을 사용하는 Amazon Bedrock)을 사용합니다. 5초 SLA와 10명의 동시 사용자를 충족하려면 다음에 중점을 둡니다: - ≤200 words를 강제하기 위한 prompt 설계(명시적 지시 + max tokens). - 낮은 지연 시간의 inference(실시간 요청에 적합한 model/throughput 구성 선택). - 반복 접근에 대한 summary caching(예: DynamoDB/ElastiCache) 및 가능할 경우 새로 업로드된 report에 대한 비동기 pre-summarization. - API 계층에서의 동시성 제어 및 scaling(API Gateway + Lambda/ECS)과 함께 model endpoint가 병렬 요청을 처리할 수 있도록 보장. 흔한 오해: NER(Option A)는 clinical report에 drugs 및 dosages 같은 entity가 포함되어 있기 때문에 관련 있어 보일 수 있지만, entity tagging은 일관된 “top findings” summary를 생성하지 않습니다. Recommendations(Option B)는 summarization이 아니라 discovery를 돕습니다. Translation(Option D)은 multilingual output이 필요한 경우가 아니라면 관련이 없습니다. 시험 팁: 시험 문제에서는 동사와 출력을 기준으로 판단하세요: “produce key takeaways/summary”는 generative AI summarization을 강하게 시사합니다. 그런 다음 비기능 요구 사항(지연 시간, 동시성, 출력 길이)에 맞는지 검증하세요. entity extraction, search, recommendations 같은 인접한 analytics 작업이 아니라, 최종 사용자에게 전달되는 결과물과 일치하는 옵션을 선택해야 합니다.

문제 2

한 IT 운영 팀이 8~12개의 연속된 서비스 로그와 5개의 메트릭 이상 징후를 분석하여 인시던트를 진단하기 위해 LLM을 사용하며, 최종 근본 원인과 개선 조치를 정당화하는 번호가 매겨진 단계별 추론 트레이스와 중간 계산(예: latency delta 및 error-rate ratio)을 모델이 생성해야 한다고 요구한다. 이러한 요구 사항을 가장 잘 충족하는 prompt engineering 기법은 무엇인가?

문제 분석

핵심 개념: 이 문제는 generative AI/LLM을 위한 prompt engineering 기법, 특히 모델로부터 중간 계산을 포함한 구조화된 다단계 추론을 어떻게 유도하는지를 평가합니다. AWS 시험 맥락에서는 Amazon Bedrock 또는 Amazon SageMaker JumpStart 사용 패턴과 함께 자주 등장하지만, 핵심은 prompting 방법입니다. 정답이 맞는 이유: 요구 사항이 명확합니다. 팀은 최종 진단과 개선 조치를 정당화하는 번호가 매겨진 단계별 추론 트레이스와 중간 계산(latency delta, error-rate ratio)을 필요로 합니다. Chain-of-thought prompting은 모델이 최종 답만 내놓는 것이 아니라 중간 추론 단계를 산출하도록(즉, “작업 과정을 보여주도록”) 유도하기 위해 설계되었습니다. 구조화된 추론 트레이스(예: “step by step로 생각하라; 계산을 포함하라; 번호가 매겨진 단계로 출력하라”)를 요청하면, 8~12개의 연속 로그와 5개의 메트릭 이상 징후처럼 여러 증거 항목 전반에서 일관성을 높이고, 모델이 근거 없이 결론으로 점프할 가능성을 줄이기 위해 chain-of-thought prompting을 적용하는 것입니다. 주요 AWS 기능 / 모범 사례: AWS(예: Amazon Bedrock)에서 실제로는 chain-of-thought 스타일 지시와 출력 형식 제약(번호가 매겨진 단계, 계산 섹션, 최종 근본 원인, 개선 조치)을 결합합니다. 로그/메트릭 컨텍스트를 제공하기 위해 retrieval(RAG)과 함께 사용할 수도 있지만, 이 문제는 중간 추론을 산출하게 하는 prompting 기법이 무엇인지에 초점을 둡니다. 운영 환경에서는 추가로 guardrails(예: “각 단계가 어떤 로그 라인/메트릭으로 뒷받침되는지 인용하라”)를 적용하고, 계산은 외부에서 검증하는 경우가 많습니다. 흔한 오해: Few-shot prompting은 예시를 제공하여 작업 준수도를 높일 수 있지만, 본질적으로 모델이 중간 추론을 드러내도록 요구하는 기법은 아닙니다. Zero-shot은 상세한 트레이스를 안정적으로 생성할 가능성이 가장 낮습니다. Directional stimulus prompting은 특정 증거에 주의를 기울이도록 유도할 수 있지만, 계산을 포함한 명시적 다단계 추론을 끌어내는 정석적인 기법은 아닙니다. 시험 팁: 문제가 “step-by-step reasoning”, “show your work”, “intermediate steps”, “multi-hop reasoning”을 요구하면, 시험 정답은 보통 chain-of-thought prompting입니다. 반대로 “예시로부터 학습”을 강조하면 few-shot을 선택하세요. “지시만으로 수행”을 강조하면 zero-shot을 선택하세요. “특정 단서나 제약에 집중”을 강조하면 directional stimulus가 해당될 수 있습니다.

문제 3

한 리테일 분석 팀이 Amazon OpenSearch Service에 2,000만 개의 768차원 텍스트 임베딩을 저장하는 retrieval-augmented generation (RAG) 프로토타입을 구축하고 있으며, 100 ms 이내에 가장 유사한 벡터 상위 20개를 검색해야 합니다. 이러한 유형의 벡터 데이터베이스 애플리케이션을 가능하게 하는 OpenSearch 기능은 구체적으로 무엇입니까?

문제 분석

핵심 개념: 이 문제는 retrieval-augmented generation (RAG)에서 사용되는 Amazon OpenSearch Service의 벡터 데이터베이스 기능, 즉 고차원 임베딩을 저장하고 대규모로 빠른 근사 유사도 검색(k-nearest neighbor)을 수행하는 능력을 평가합니다. 정답인 이유: RAG 시스템은 쿼리 임베딩에 대해 의미적으로 가장 유사한 문서를 검색해야 합니다. 2,000만 개의 768차원 벡터와 엄격한 지연 시간 목표(100 ms 이내 상위 20개)를 고려할 때, 핵심 OpenSearch 기능은 확장 가능한 벡터 인덱싱과 k-NN 검색입니다. OpenSearch는 벡터 필드와 k-NN/ANN (approximate nearest neighbor) 검색을 제공하므로 2,000만 개 임베딩을 모두 스캔하지 않고도 가장 가까운 벡터를 효율적으로 찾을 수 있습니다. 이것이 바로 OpenSearch가 시맨틱 검색과 RAG를 위한 벡터 데이터베이스로 동작하게 하는 기능입니다. 주요 AWS 기능: OpenSearch는 k-NN 기능(일반적으로 HNSW와 같은 ANN 알고리즘 기반)을 통해 벡터 검색을 지원하며, 수평 확장성을 위해 샤드와 노드 전반에서 벡터 인덱스를 관리합니다. 일반적으로 임베딩을 벡터 필드에 저장하고, ANN 인덱스 유형/파라미터를 선택한 뒤, k-NN로 쿼리하여 상위 K 결과(여기서는 K=20)를 반환합니다. 성능은 인덱스 파라미터(예: 그래프 구성/ef 설정), 샤드 크기, 인스턴스 유형(메모리/CPU), 그리고 적용 가능한 경우 후보 집합을 좁히기 위한 필터 사용에 따라 달라집니다. 이는 Well-Architected의 성능 효율성 원칙(무차별 스캔이 아니라 데이터 구조 최적화 및 scale-out)에 부합합니다. 흔한 오해: S3 통합(A)은 스냅샷 저장 또는 데이터 수집과 관련된 것이지, 저지연 벡터 유사도 검색이 아닙니다. 지리공간 인덱싱(B)은 위치 기반 쿼리에 특화된 기능으로 임베딩 유사도와는 무관합니다. 스트리밍 분석(D)은 준실시간 로그/이벤트 분석과 관련되며 ANN 벡터 검색과는 다릅니다. 시험 팁: “embeddings”, “top K similar”, “vector database”, “RAG”를 보면 “vector search”, “k-NN”, “ANN”을 찾으십시오. OpenSearch/Elasticsearch 계열 서비스에서 이를 가능하게 하는 기능은 일반 검색, 스토리지 통합, 스트리밍 기능이 아니라 k-NN/벡터 인덱스입니다. 또한 수천만 개 벡터에서 엄격한 지연 시간을 요구한다는 것은 정확한 brute-force 유사도 계산이 아니라 approximate nearest neighbor 인덱싱을 강하게 시사합니다.

문제 4

한 e-commerce 마켓플레이스가 Amazon Bedrock에서 managed large language model을 사용해 제품 Q&A assistant를 배포할 계획이다. 2일간의 파일럿에서 각 요청은 평균 800 prompt tokens와 200 completion tokens를 사용하며, temperature는 0.7로 설정되어 있고, 모델에 대해 custom training 또는 fine-tuning은 수행하지 않는다. 시스템이 10,000개의 요청을 처리할 때, 일일 inference 요금을 주로 좌우하는 요인은 무엇인가?

문제 분석

핵심 개념: Amazon Bedrock의 managed foundation models에 대한 inference pricing은 주로 사용량 기반이다. 대부분의 Bedrock 모델에서 on-demand inference 요금은 처리된 tokens 수(입력/prompt tokens + 출력/completion tokens)에 의해 결정된다. 이 문제는 generative AI inference가 어떻게 측정되고 과금되는지에 대한 이해를 평가한다. 정답이 맞는 이유: 하루 10,000건의 요청과 요청당 평균 800 prompt tokens + 200 completion tokens라면, 요청당 약 1,000 tokens를 소비하며 하루 총 약 10,000,000 tokens를 소비한다. Bedrock의 inference 비용은 서비스가 모델에 보내는 텍스트 양과 모델이 생성하는 텍스트 양을 측정하기 때문에 이 token 볼륨에 따라 증가한다. fine-tuning이나 custom training을 수행하지 않으므로 training 관련 요금은 고려할 필요가 없다. 따라서 지배적인 비용 요인은 요청당 소비되는 tokens 수이다. 주요 AWS 기능: Bedrock은 여러 foundation models에 대한 액세스를 제공하며, pricing은 일반적으로 1,000(또는 1 million) input tokens당 요금과 1,000(또는 1 million) output tokens당 요금으로 표시되고, 종종 서로 다른 요율이 적용된다. 이는 prompt optimization(더 짧은 prompts), 응답 길이 제한(max tokens), caching/retrieval 전략(RAG로 불필요한 context 감소), 그리고 지원되는 경우 request batching을 통해 비용을 제어하도록 유도한다. Temperature는 무작위성에 영향을 주는 inference parameter이지만, 과금 단위를 바꾸지는 않는다. 흔한 오해: 많은 사람들이 “temperature” 또는 다른 generation 설정이 비용을 직접 바꾼다고 생각한다. Temperature가 출력 길이나 재시도에 간접적으로 영향을 줄 수는 있지만(그 결과 tokens가 늘어날 수 있음), 과금 메커니즘 자체는 여전히 token 기반이다. 또 다른 오해는 training 시간이나 training 데이터가 inference 요금에 영향을 준다는 것인데, 이는 실제로 모델을 training하거나 fine-tuning할 때만 해당된다(그리고 Bedrock의 managed FMs는 보통 고객이 직접 training을 관리하지 않고 사용한다). 시험 팁: Bedrock 및 대부분의 LLM 서비스에서 inference 비용은 보통 입력 + 출력 tokens에 비례한다는 점을 기억하라. 요청 수와 평균 token 수로부터 일/월간 token 총량을 항상 대략 계산하라. Inference pricing과 customization(fine-tuning) pricing을 구분하고, 문제에서 compute time 또는 provisioned throughput 기반 pricing을 명시하지 않는 한 모델 hyperparameters(temperature, top-p)를 과금 차원과 혼동하지 마라.

문제 5

한 리테일 마켓플레이스가 foundation model을 사용하여 상품 사진을 200개 카테고리로 분류한다. 출시 전에 팀은 10,000개의 라벨링된 이미지로 구성된 held-out benchmark를 사용해 정확도를 검증하려고 하며, 목표는 top-1 accuracy가 최소 92%이다. 모델의 정확도를 평가하기 위한 가장 적절한 전략은 무엇인가?

이동 중에도 모든 문제를 풀고 싶으신가요?

Cloud Pass를 다운로드하세요 — 모의고사, 학습 진도 추적 등을 제공합니다.

문제 6

미디어 스트리밍 플랫폼이 3개 AWS Regions에 걸쳐 150개의 ML inference containers를 운영하며 분당 25,000건의 요청을 처리하고 있습니다. 이 워크로드에 대해 P95 latency, 5xx error rate, 그리고 GPU/CPU utilization을 중앙에서 추적하고 경고할 수 있는 고도로 확장 가능한 AWS 서비스를 필요로 합니다. 회사는 어떤 AWS 서비스를 사용해야 합니까?

문제 분석

핵심 개념: 이 문제는 AWS에서의 observability 및 운영 모니터링을 평가합니다—metrics를 수집하고, 다수의 containers와 Regions 전반에서 집계하며, percentiles(P95)를 생성하고, 임계값 기반 alerting을 구성하는 능력입니다. metrics, logs, dashboards, alarms를 위한 AWS 네이티브 서비스는 Amazon CloudWatch입니다. 정답이 맞는 이유: 플랫폼은 높은 요청량 환경에서 3개 Regions에 분산된 150개의 inference containers 전반에 대해 P95 latency, 5xx error rate, GPU/CPU utilization을 중앙에서 추적하고 alerting해야 합니다. CloudWatch는 높은 cardinality의 time-series metrics를 수집하도록 설계되어 있으며, 분포에 대한 statistics(분위수/percentiles 포함)를 계산하고 alarms를 트리거할 수 있습니다. custom metrics 또는 embedded metric format을 통해 application metrics(latency, HTTP 5xx)를 수집할 수 있고, CloudWatch Agent 및 Container Insights(ECS/EKS)를 통해 infrastructure/container metrics(CPU, memory, GPU)를 수집할 수 있습니다. multi-Region 운영을 위해 CloudWatch는 cross-account 및 cross-Region dashboards를 지원하며, Amazon SNS, OpsCenter 또는 incident tooling을 통해 alarms/notifications를 라우팅할 수 있습니다. 주요 AWS 기능: 1) CloudWatch Metrics + Alarms: P95 latency 및 5xx rate에 대한 alarms를 생성하고, metric math로 error rate(5xx/total)를 계산합니다. 2) Container Insights: container 및 node 단위 CPU/memory/network를 수집하고 EKS/ECS와 통합합니다. 3) GPU monitoring: GPU utilization을 custom metrics로 게시(예: CloudWatch Agent/telegraf/nvidia-smi exporters)하고 임계값에 대해 alarm을 설정합니다. 4) Dashboards 및 cross-Region 가시성: 모든 Regions를 보는 중앙 dashboards; 필요 시 cross-account observability로 중앙화합니다. 5) Anomaly Detection 및 Logs Insights(선택): latency regression을 탐지하고 상관관계를 위해 logs를 쿼리합니다. 흔한 오해: CloudTrail은 종종 monitoring과 혼동되지만, 성능 metrics가 아니라 API activity(누가 무엇을 했는지)를 기록합니다. Trusted Advisor는 best-practice checks 및 cost/security 권고를 제공하지만, 실시간 P95 latency 추적을 제공하지 않습니다. AWS Config는 리소스 configuration changes 및 compliance를 추적하며, runtime latency나 GPU utilization을 다루지 않습니다. 시험 팁: “track metrics”, “percentiles (P95)”, “alerting”, “dashboards”, “operational monitoring”이 보이면 기본적으로 CloudWatch를 선택합니다. audit/API history는 CloudTrail, configuration compliance/drift는 Config, account-level recommendations는 Trusted Advisor를 선택합니다. containerized ML inference에서는 Container Insights + model latency 및 GPU utilization을 위한 custom metrics가 흔한 패턴임을 기억하세요.

문제 7

Amazon Bedrock에서 호스팅되는 금융 자문 chatbot이 temperature=0.9 및 top_p=0.95로 호출될 때 500개 프롬프트에 대한 내부 평가에서 12%의 hallucination 비율을 보이며, 팀은 재학습하거나 foundation model을 변경하지 않고 24시간 내에 hallucination을 5% 미만으로 줄여야 합니다—무엇을 해야 합니까?

문제 분석

핵심 개념: 이 문제는 Amazon Bedrock의 foundation model에 대한 추론 시점 제어—특히 decoding 파라미터(temperature 및 top_p)가 출력 변동성과 hallucination 위험에 어떤 영향을 미치는지—를 평가합니다. 재학습, fine-tune, 또는 모델 변경이 불가능할 때 가장 빠른 레버는 생성 구성(generation configuration)입니다. 정답이 맞는 이유: temperature 0.9와 top_p=0.95는 token 선택에서 무작위성을 높여 다양하고 창의적인 출력을 유도합니다. 금융 자문 chatbot에서는 이러한 창의성이 종종 조작된 사실, 출처, 또는 과도하게 확신하는 잘못된 진술(hallucinations)로 나타납니다. temperature를 낮추면(예: ~0.2) sampling이 더 결정적이 되어 모델이 더 높은 확률의 token을 선택하고 더 보수적인 완성을 생성하도록 유도합니다. 이는 일반적으로 hallucination을 빠르게 줄이며, Bedrock 호출 파라미터를 변경하는 것만으로 즉시(수 분 내) 적용할 수 있어 24시간 제약을 충족합니다. 주요 AWS 기능: Amazon Bedrock runtime APIs는 temperature 및 top_p(nucleus sampling) 같은 추론 파라미터를 요청별(per-request) 또는 기본값(default)으로 구성할 수 있습니다. 팀은 동일한 평가 프롬프트에 대해 파라미터 세트를 A/B 테스트하여 hallucination 감소를 정량화할 수 있습니다. 프로덕션에서는 이러한 설정을 애플리케이션 계층 또는 오케스트레이션 구성 요소(예: Bedrock invocation wrapper)를 통해 일관되게 적용할 수 있으며, 기반 foundation model을 수정할 필요가 없습니다. 흔한 오해: “hallucinations는 더 나은 학습 데이터가 필요하다” 또는 “다른 모델이 필요하다”라고 생각하기 쉽지만, 문제는 재학습과 모델 변경을 명시적으로 금지합니다. 또 다른 오해는 Agents for Amazon Bedrock가 “학습을 감독한다”는 것인데, agents는 추론 시점에서 tool 사용, retrieval, action 실행을 오케스트레이션할 뿐 모델 학습을 수행하지 않습니다. retrieval-augmented generation (RAG) 및 guardrails도 hallucination을 줄일 수 있지만, 여기의 선택지는 가장 빠르고 확실한 변경인 decoding 무작위성 조정에 초점을 둡니다. 시험 팁: 제약 조건이 “재학습/fine-tuning 불가” 및 “빠르게 해결해야 함”이라면, 추론 시점 완화책을 찾으세요: temperature/top_p 낮추기, retrieval로 grounding 추가, guardrails 추가, citations 요구. 높은 temperature/top_p는 창의성을 증가시키고, 낮은 temperature는 결정성을 증가시키며—금융, 의료, 법률 같은 규제 도메인에 선호됩니다. 완화책을 제약과 타임라인에 매핑하세요: 파라미터 튜닝이 가장 빠르고 위험이 낮은 변경입니다.

문제 8

Amazon Bedrock에서 범용 foundation model을 사용하는 한 핀테크 스타트업은 모델이 업계 특화 용어(예: 'ACH return code R01', 'SAR filing')와 규정을 준수하는 보고서 형식을 일관되게 사용하도록 보장해야 합니다. 이들은 프롬프트와 원하는 도메인 특화 출력이 짝지어진 라벨링된 예시 12,000개를 보유하고 있으며, 이 어휘와 제약에 맞게 모델을 적응시키고자 합니다—어떤 기법을 사용해야 합니까?

문제 분석

핵심 개념: 이 문제는 Amazon Bedrock의 범용 foundation model(FM)을 도메인 특화 언어와 구조화된 규정 준수 출력물을 신뢰성 있게 생성하도록 적응시키는 방법을 묻습니다. 핵심은 라벨링된 프롬프트–응답 쌍을 사용한 지도(supervised) 방식의 FM 적응입니다. 정답이 맞는 이유: 파인튜닝은 라벨링된 예시 데이터셋(여기서는 12,000개의 프롬프트/출력 쌍)이 있고, 모델이 일관된 용어(예: ACH return code, SAR filing 관련 문구)와 형식 제약을 학습하길 원할 때 적절한 기법입니다. 파인튜닝은 모델 가중치를 업데이트하여 프롬프트만으로 유도하는 접근보다 동작이 더 “내재화”되도록 만들며, 일관성을 높이고 길고 취약한 프롬프트에 대한 의존도를 줄입니다. Bedrock에서 파인튜닝은 조직의 도메인 어휘, 톤, 출력 구조에 FM을 정렬(alignment)하기 위해 지도 예시를 사용하는 정확히 그 목적의 기능입니다. 주요 AWS 기능: Amazon Bedrock에서는 Amazon S3에 저장된 학습 데이터를 사용해 모델 커스터마이징(파인튜닝)을 수행하고, 베이스 모델처럼 호출할 수 있는 커스터마이즈된 모델 아티팩트를 생성할 수 있습니다. 이는 반복 가능하고 버전 관리된 배포를 지원하며, 안전/컴플라이언스 요구사항을 강화하기 위해 가드레일(Amazon Bedrock Guardrails) 및 평가와 결합할 수 있습니다. 핀테크의 경우 일반적으로 데이터 거버넌스 제어(암호화, 액세스 정책)를 적용하고 학습 데이터 및 모델 버전에 대한 감사 가능성을 유지합니다. 흔한 오해: 데이터 증강은 데이터셋의 크기/다양성을 늘릴 수 있지만, 그 자체로 모델을 적응시키지는 않습니다. 지속적 사전학습은 “모델에게 금융을 가르친다”처럼 들리지만, 대규모 비라벨(unlabeled) 코퍼스가 필요하고 12,000개의 라벨링된 쌍에 비해 더 복잡하고 비용이 큽니다. 양자화는 추론 효율/비용을 개선하는 것이지 도메인 준수도를 높이는 것이 아닙니다. 시험 팁: 문제에 “라벨링된 prompt–completion 쌍”이 언급되고 목표가 일관된 스타일/용어/형식이라면 파인튜닝을 떠올리세요. “대규모 비라벨 도메인 텍스트”가 언급되면 continued/continuous pre-training을 떠올리세요. “지연/비용 감소”가 언급되면 quantization을 떠올리세요. “학습 예시 확장”이 언급되면 augmentation을 떠올리세요. 또한 RAG는 문서로부터 사실적 근거를 제공하는 데 도움이 되지만, 이 문제는 라벨링된 예시를 사용해 어휘/제약을 적응시키라고 명시하므로 전형적인 파인튜닝 영역입니다.

문제 9

한 온라인 소매 회사가 시간당 약 10,000건의 inference 요청을 처리하는 API 뒤에 제품 추천 모델을 배포했으며, 요청의 95%가 200 ms 이내에 완료된다는 SLO가 있습니다. 운영 중인 모델의 런타임 효율성을 가장 직접적으로 나타내는 metric은 무엇입니까?

문제 분석

핵심 개념 - 이 문제는 inference API 뒤에서 제공되는 ML 모델의 운영(런타임) 효율성을 테스트합니다. AWS 관점에서는 Amazon SageMaker real-time endpoints, ECS/EKS 기반 inference, 또는 Lambda 기반 inference와 같은 모델 서빙 성능/latency metric, 그리고 “요청의 95%가 200 ms 이내”와 같은 SLO와의 연관성을 의미합니다. 정답이 맞는 이유 - 선택지 중 “평균 응답 시간”은 운영 중인 모델의 런타임 효율성을 가장 직접적으로 반영하는 metric입니다. 런타임 효율성은 배포된 모델, 인스턴스 타입, container/runtime, scaling 구성에서 inference 요청을 얼마나 빠르게 완료할 수 있는지에 관한 것입니다. SLO는 명시적으로 percentile 기반(p95 latency)이지만, 평균 응답 시간 역시 직접적인 latency metric이며 training 또는 비즈니스 만족도 metric보다 런타임 효율성과 훨씬 더 가깝습니다. 주요 AWS 기능 - 프로덕션에서는 일반적으로 Amazon CloudWatch metric과 로그를 사용해 latency percentile(p50/p90/p95/p99)과 throughput을 모니터링합니다. SageMaker endpoint의 경우 주요 metric에는 ModelLatency와 OverheadLatency(및 해당 percentile 통계), Invocations, 그리고 CPUUtilization/MemoryUtilization이 포함되며, 이를 통해 성능과 리소스 포화 간의 상관관계를 확인합니다. API Gateway + Lambda/ECS/EKS의 경우 CloudWatch metric(Latency, IntegrationLatency), ALB target response time, 그리고 distributed tracing(AWS X-Ray)을 사용해 시간이 어디에서 소비되는지 분리해 파악합니다. Autoscaling(SageMaker endpoint autoscaling, ECS Service Auto Scaling, EKS의 KEDA)은 부하 상황에서 latency를 유지하는 데 도움이 됩니다. 흔한 오해 - CSAT는 inference 런타임 외에도 UI, 가격, 배송 등 많은 요인의 영향을 받는 결과 metric입니다. epoch당 training 시간과 training 인스턴스 수는 inference 서빙이 아니라 training 단계와 관련됩니다. 이는 모델 반복 속도와 비용에는 영향을 줄 수 있지만, 배포된 endpoint가 실시간 요청을 얼마나 효율적으로 처리하는지를 직접적으로 나타내지는 않습니다. 시험 팁 - SLO가 ms 단위와 percentile로 제시되면 “latency metric”(특히 p95/p99)을 떠올리세요. 정확한 percentile metric이 선택지에 없으면, 비즈니스 KPI나 training metric이 아니라 가장 가까운 직접 런타임 성능 지표(응답 시간/latency)를 고르세요. 또한 training-time 최적화(epoch, training cluster 규모)와 inference-time 최적화(instance type, batching, model compilation, autoscaling, caching)를 구분하는 것을 기억하세요.

문제 10

지역 의료 클리닉은 Amazon Bedrock의 foundation model (FM)을 사용하여 환자 질문에 답하는 트리아지 어시스턴트를 구동하고 있습니다. 이 시스템은 하루 약 18,000건의 쿼리를 처리하며, 클리닉은 6,000개의 선별된 예시로 FM을 fine-tuning하여 클리닉별 정책에 대한 정확도를 개선하려고 합니다. 어떤 전략이 모델을 성공적으로 fine-tuning할 수 있습니까?

문제 분석

핵심 개념: 이 문제는 Amazon Bedrock의 모델 커스터마이징(fine-tuning)과 foundation model의 supervised fine-tuning에 필요한 training data 형식을 평가합니다. Bedrock에서 fine-tuning은 일반적으로 labeled prompt-response 쌍을 사용하여, 클리닉별 입력이 주어졌을 때 클리닉별 출력을 생성하도록 모델이 학습하게 합니다. 정답이 맞는 이유: 클리닉 정책에 대한 정확도를 높이기 위해 FM을 fine-tuning하려면, 클리닉은 입력(사용자 질문 또는 지시/컨텍스트)과 원하는 출력(이상적인 어시스턴트 답변)을 매핑하는 선별된 예시를 제공해야 합니다. 선택지 A는 필수적인 supervised fine-tuning 구조인 “prompt” 필드와 “completion” 필드(즉, input-output 쌍)를 설명합니다. 이는 instruction tuning의 정석적인 접근이며, Bedrock 커스터마이징 워크플로가 개념적으로 기대하는 방식입니다. 즉, 모델은 prompt에 조건화된 completion을 예측하도록 학습됩니다. 주요 AWS 기능: Amazon Bedrock은 특정 FM에 대해 모델 커스터마이징을 지원하며, Amazon S3에 저장된 training dataset 및 (선택적으로) validation dataset을 제공합니다. 데이터셋은 보통 구조화된 레코드(종종 JSON Lines)로 제공되며 prompt/completion(또는 동등한 input/output) 필드를 포함합니다. 또한 training 파라미터(epochs, 적용 가능한 경우 learning rate)를 구성하고, Bedrock은 Bedrock runtime을 통해 호출할 수 있는 커스터마이징된 모델 아티팩트를 생성합니다. 헬스케어의 경우 데이터 거버넌스도 보장해야 합니다: S3에 대한 least-privilege 액세스, encryption (SSE-KMS), 그리고 PHI의 신중한 처리. 흔한 오해: 자주 나오는 함정은 fine-tuning을 throughput 스케일링과 혼동하는 것입니다. Provisioned Throughput은 inference에 대한 성능/일관성을 개선하지만 모델 가중치나 정확도를 변경하지는 않습니다. 또 다른 함정은 어떤 텍스트 코퍼스(저널/교과서)든 모델에 정책을 “가르칠” 수 있다고 생각하는 것입니다. labeled target output이 없으면 이는 정책 준수를 위한 supervised fine-tuning이 아닙니다. 마지막으로, 잘못된 파일 형식(예: CSV 라인이 들어 있는 .txt)은 Bedrock이 기대하는 dataset schema를 충족하지 못합니다. 시험 팁: “curated examples로 fine-tune”이라는 표현을 보면 “supervised prompt-response pairs”와 “S3에 호스팅된 structured dataset”을 떠올리세요. 선택지가 throughput, latency, capacity를 말하면 이는 training이 아니라 inference 스케일링입니다. unlabeled 코퍼스를 말하면 이는 특정 응답 동작을 위한 fine-tuning이 아니라 pretraining 또는 RAG 콘텐츠에 더 가깝습니다.

Practice Test #2

3중 AI 검증 답안 및 해설

기출 문제

합격 후기(11)

다른 모의고사

Practice Test #1

지금 학습 시작하기