
AWS
192+ 무료 연습 문제 (AI 검증 답안 포함)
AI 기반
모든 AWS Certified AI Practitioner (AIF-C01) 답안은 3개의 최고 AI 모델로 교차 검증하여 최고의 정확도를 보장합니다. 선택지별 상세 해설과 심층 문제 분석을 제공합니다.
도시 병원 네트워크의 공중보건 분석 팀은 대규모 언어 모델(LLMs)을 사용해 20~50페이지 분량의 임상 사고 보고서(PDF)를 읽고 안전성 검토를 위한 핵심 요약을 생성하는 AI 애플리케이션을 구축하려고 합니다. 시스템은 요청당 5초 이내에 상위 주요 발견사항의 간결한 요약(≤200단어)을 반환해야 하며, 최대 10명의 동시 검토자를 지원해야 합니다. 어떤 솔루션이 이러한 요구사항을 충족합니까?
NER는 entity(예: 약물명, 용량, 환자 식별자)를 식별하고 라벨링하는 전형적인 NLP 추출 작업입니다. 임상 텍스트를 구조화하고 후속 분석을 지원하는 데는 유용하지만, “상위 주요 발견사항”에 대한 간결한 서술 또는 bullet 요약을 생성하지는 않습니다. 또한 5초 이내에 ≤200단어의 takeaway 요약을 반환해야 한다는 요구사항을 본질적으로 충족하지도 않습니다.
recommendation engine은 유사하거나 관련된 사고 보고서를 제안하여 검토자 워크플로와 탐색을 개선할 수 있습니다. 그러나 단일 20~50페이지 PDF를 읽고 핵심 요약을 생성하지는 않습니다. 검색과 결합하더라도, 지정된 단어 수 및 지연 시간 제약 내에서 보고서의 상위 주요 발견사항에 대한 간결한 요약을 생성해야 한다는 핵심 기능 요구사항을 충족하지 못합니다.
Option C가 정답인 이유는 주요 요구 사항이 긴 clinical incident report를 읽고 핵심 findings에 대한 간결한 summary를 생성하는 것이기 때문입니다. 이는 대표적인 LLM summarization 사용 사례입니다. large language model은 비정형 text를 이해하고 일관성 있게 압축된 출력을 생성하도록 설계되어 있기 때문입니다. 또한 이 옵션은 응답을 200 words 이내로 유지하고 5초 이내에 결과를 반환해야 한다는 요구 사항도 명시적으로 포함하고 있어, 제시된 기능 및 성능 제약 조건과 일치합니다. 다른 어떤 옵션도 summary를 생성하지 않으므로, 비즈니스 요구를 직접 충족하는 선택지는 C뿐입니다.
translation 시스템은 텍스트를 언어 간 변환합니다. 프롬프트는 다국어 지원을 요구하지 않고 임상 사고 보고서의 요약을 요구합니다. 번역은 다른 병원 맥락에서는 가치가 있을 수 있지만, “상위 주요 발견사항” 요약을 생성하지 않으며 핵심 요구사항을 해결하지 못합니다. 따라서 이 사용 사례에 가장 적합한 솔루션이 아닙니다.
핵심 개념: 이 문제는 명시적인 기능 및 비기능 요구 사항(출력 길이, 지연 시간, 동시성)을 바탕으로 올바른 generative AI 애플리케이션 패턴, 즉 LLM 기반 document summarization을 선택하는지를 평가합니다. AWS 관점에서 이는 일반적으로 foundation model(예: Amazon Bedrock 경유)을 사용하여 긴 문서에 대해 summarization을 수행하는 방식에 해당합니다. 정답인 이유: 팀은 20~50페이지 분량의 PDF를 읽고 요청당 5초 이내에 핵심 findings의 간결한 summary(≤200 words)를 생성하며, 최대 10명의 동시 reviewer를 지원하는 AI 애플리케이션이 필요합니다. Option C는 정확히 이 작업을 수행하는 LLM 기반 summarization assistant를 설명하며, 제약 조건(제한된 summary 길이와 낮은 지연 시간)에도 부합합니다. 다른 옵션들은 서로 다른 ML 작업(NER, recommendations, translation)을 설명하며, 핵심 findings에 대한 간결한 narrative/bulleted summary를 생성해야 한다는 주요 요구 사항을 충족하지 못합니다. 주요 AWS 기능: 일반적인 AWS 구현에서는 PDF를 저장하기 위해 Amazon S3를 사용하고, text extraction(보통 PDF의 경우 Amazon Textract)을 통해 문서를 text로 변환한 뒤, summarization을 위해 LLM(예: 적절한 model을 사용하는 Amazon Bedrock)을 사용합니다. 5초 SLA와 10명의 동시 사용자를 충족하려면 다음에 중점을 둡니다: - ≤200 words를 강제하기 위한 prompt 설계(명시적 지시 + max tokens). - 낮은 지연 시간의 inference(실시간 요청에 적합한 model/throughput 구성 선택). - 반복 접근에 대한 summary caching(예: DynamoDB/ElastiCache) 및 가능할 경우 새로 업로드된 report에 대한 비동기 pre-summarization. - API 계층에서의 동시성 제어 및 scaling(API Gateway + Lambda/ECS)과 함께 model endpoint가 병렬 요청을 처리할 수 있도록 보장. 흔한 오해: NER(Option A)는 clinical report에 drugs 및 dosages 같은 entity가 포함되어 있기 때문에 관련 있어 보일 수 있지만, entity tagging은 일관된 “top findings” summary를 생성하지 않습니다. Recommendations(Option B)는 summarization이 아니라 discovery를 돕습니다. Translation(Option D)은 multilingual output이 필요한 경우가 아니라면 관련이 없습니다. 시험 팁: 시험 문제에서는 동사와 출력을 기준으로 판단하세요: “produce key takeaways/summary”는 generative AI summarization을 강하게 시사합니다. 그런 다음 비기능 요구 사항(지연 시간, 동시성, 출력 길이)에 맞는지 검증하세요. entity extraction, search, recommendations 같은 인접한 analytics 작업이 아니라, 최종 사용자에게 전달되는 결과물과 일치하는 옵션을 선택해야 합니다.
한 IT 운영 팀이 8~12개의 연속된 서비스 로그와 5개의 메트릭 이상 징후를 분석하여 인시던트를 진단하기 위해 LLM을 사용하며, 최종 근본 원인과 개선 조치를 정당화하는 번호가 매겨진 단계별 추론 트레이스와 중간 계산(예: latency delta 및 error-rate ratio)을 모델이 생성해야 한다고 요구한다. 이러한 요구 사항을 가장 잘 충족하는 prompt engineering 기법은 무엇인가?
Few-shot prompting은 원하는 패턴을 모델에 가르치기 위해 소수의 예시(input-output 쌍)를 제공합니다. 인시던트 분석 형식을 일관되게 만들고 delta/ratio 계산 방법을 시연함으로써 정확도를 높일 수는 있습니다. 그러나 요구 사항은 중간 계산을 포함한 명시적 단계별 추론 트레이스를 생성하는 것이며, 이는 단순히 예시를 제공하는 것보다 chain-of-thought prompting이 더 직접적으로 해결합니다.
Zero-shot prompting은 예시 없이 지시만에 의존합니다. 번호가 매겨진 단계와 계산을 요청할 수는 있지만, 연속 로그와 메트릭 전반의 복잡한 다중 증거 추론에서는 zero-shot이 일반적으로 신뢰성이 떨어집니다. 구조와 완전성의 변동성이 커지는 경우가 많아, 중간 계산과 정당화된 근본 원인/개선 조치 트레이스를 일관되게 포함해야 할 때는 더 약한 선택입니다.
Directional stimulus prompting은 특정 신호, 제약, 힌트(예: “deployment 이후 latency spike에 집중하라”, “5xx error를 우선하라”)를 강조하여 모델을 유도합니다. 이는 관련성을 높이고 노이즈가 많은 로그에서 산만함을 줄일 수 있지만, 중간 계산을 포함한 전체 추론 체인을 드러내도록 본질적으로 만들지는 않습니다. 이는 명시적 단계별 추론을 끌어내기보다는 주의(attention)를 안내하는 데 더 가깝습니다.
Chain-of-thought prompting은 모델이 최종 답을 내기 전에 중간 단계를 말로 풀어내도록 하여 다단계 추론을 유도하는 데 목적이 있습니다. 이는 최종 근본 원인과 개선 조치를 정당화하는 중간 계산(latency delta, error-rate ratio)을 포함한 번호가 매겨진 추론 트레이스 요구 사항과 직접적으로 일치합니다. 여러 로그와 메트릭 이상 징후에 걸친 투명하고 구조화된 추론이 필요할 때 가장 적합합니다.
핵심 개념: 이 문제는 generative AI/LLM을 위한 prompt engineering 기법, 특히 모델로부터 중간 계산을 포함한 구조화된 다단계 추론을 어떻게 유도하는지를 평가합니다. AWS 시험 맥락에서는 Amazon Bedrock 또는 Amazon SageMaker JumpStart 사용 패턴과 함께 자주 등장하지만, 핵심은 prompting 방법입니다. 정답이 맞는 이유: 요구 사항이 명확합니다. 팀은 최종 진단과 개선 조치를 정당화하는 번호가 매겨진 단계별 추론 트레이스와 중간 계산(latency delta, error-rate ratio)을 필요로 합니다. Chain-of-thought prompting은 모델이 최종 답만 내놓는 것이 아니라 중간 추론 단계를 산출하도록(즉, “작업 과정을 보여주도록”) 유도하기 위해 설계되었습니다. 구조화된 추론 트레이스(예: “step by step로 생각하라; 계산을 포함하라; 번호가 매겨진 단계로 출력하라”)를 요청하면, 8~12개의 연속 로그와 5개의 메트릭 이상 징후처럼 여러 증거 항목 전반에서 일관성을 높이고, 모델이 근거 없이 결론으로 점프할 가능성을 줄이기 위해 chain-of-thought prompting을 적용하는 것입니다. 주요 AWS 기능 / 모범 사례: AWS(예: Amazon Bedrock)에서 실제로는 chain-of-thought 스타일 지시와 출력 형식 제약(번호가 매겨진 단계, 계산 섹션, 최종 근본 원인, 개선 조치)을 결합합니다. 로그/메트릭 컨텍스트를 제공하기 위해 retrieval(RAG)과 함께 사용할 수도 있지만, 이 문제는 중간 추론을 산출하게 하는 prompting 기법이 무엇인지에 초점을 둡니다. 운영 환경에서는 추가로 guardrails(예: “각 단계가 어떤 로그 라인/메트릭으로 뒷받침되는지 인용하라”)를 적용하고, 계산은 외부에서 검증하는 경우가 많습니다. 흔한 오해: Few-shot prompting은 예시를 제공하여 작업 준수도를 높일 수 있지만, 본질적으로 모델이 중간 추론을 드러내도록 요구하는 기법은 아닙니다. Zero-shot은 상세한 트레이스를 안정적으로 생성할 가능성이 가장 낮습니다. Directional stimulus prompting은 특정 증거에 주의를 기울이도록 유도할 수 있지만, 계산을 포함한 명시적 다단계 추론을 끌어내는 정석적인 기법은 아닙니다. 시험 팁: 문제가 “step-by-step reasoning”, “show your work”, “intermediate steps”, “multi-hop reasoning”을 요구하면, 시험 정답은 보통 chain-of-thought prompting입니다. 반대로 “예시로부터 학습”을 강조하면 few-shot을 선택하세요. “지시만으로 수행”을 강조하면 zero-shot을 선택하세요. “특정 단서나 제약에 집중”을 강조하면 directional stimulus가 해당될 수 있습니다.
실시간 금융 뉴스 플랫폼은 하루에 약 12 GB의 새로운 다국어 기사를 수집하며, 사내 foundation model (FM)이 가중치를 재설정하지 않고 24시간 이내에 속보성 변화를 반영하길 원합니다. 팀은 이전에 학습한 역량을 보존하기 위해 최신 checkpoint에서 warm-start하고, rolling 90-day corpus를 사용해 매일 refresh를 계획하고 있습니다. 가장 최신 데이터를 반영하면서도 이전에 학습한 지식을 유지하도록 FM을 최신 상태로 유지하는 training strategy는 무엇입니까?
Batch learning은 이 시나리오에 비해 너무 일반적인 표현이며, 기존 checkpoint에서 foundation model을 계속 학습시키는 방식을 구체적으로 설명하지 않습니다. 많은 training job이 데이터를 batch 단위로 처리하지만, 그것만으로는 새로 유입되는 text에 맞춰 FM을 최신 상태로 유지하면서 기존 지식을 보존해야 한다는 요구 사항을 충족하지 못합니다. 이 문제는 pretrained model을 업데이트하기 위한 lifecycle 전략을 묻는 것이지, 단순한 data ingestion 방식에 대해 묻는 것이 아닙니다. 시험 관점에서 batch learning은 warm-start 방식의 지속적인 FM refresh를 정확하게 나타내는 용어가 아닙니다.
Continuous pre-training은 무작위로 초기화된 weights로 처음부터 다시 시작하는 대신, 기존 foundation model을 최신 checkpoint부터 계속 학습시키는 올바른 전략입니다. 이는 모델을 매일 refresh하고, 속보성 multilingual news에 맞춰 최신 상태를 유지하며, 이전에 학습한 기능을 보존해야 한다는 요구 사항과 직접적으로 일치합니다. rolling 90-day corpus를 사용하면 모델이 최근의 변화를 흡수하면서도 이전 데이터를 다시 학습하게 되어 catastrophic forgetting을 줄일 수 있습니다. 이는 조직이 weights를 초기화하거나 기존 지식을 버리지 않고 FM을 최신 상태로 유지하고자 할 때 사용하는 표준 접근 방식입니다.
Static training은 고정된 dataset으로 모델을 한 번 학습시킨 뒤, 이후 전체 retraining 주기 전까지 weights를 변경하지 않는 것을 의미합니다. 이는 24시간 이내에 속보성 변화를 반영하고 매일 refresh를 수행해야 한다는 요구 사항과 충돌합니다. 금융 뉴스 환경에서는 새로운 사건이 매일 정보 환경을 실질적으로 바꾸기 때문에 static model은 빠르게 outdated 상태가 됩니다. 또한 최신 checkpoint에서 warm-start하여 rolling corpus로 학습한다는 명시된 계획과도 맞지 않습니다.
Latent training은 AWS certification 맥락이나 일반적인 ML 실무에서 foundation model 유지 관리를 설명할 때 사용하는 표준 training strategy 용어가 아닙니다. 'latent'라는 단어가 latent representations 또는 latent spaces에 대한 논의에서 등장하긴 하지만, 새로운 corpora로 FM을 점진적으로 업데이트하는 공인된 방법을 설명하지는 않습니다. 따라서 이 선택지는 rolling dataset에 대해 매일 checkpoint 기반 업데이트를 수행하는 운영 패턴과 일치하지 않습니다. 본 use case에서는 유효한 정답 선택지라기보다 distractor에 가깝습니다.
핵심 개념: 이 문제는 foundation model (FM)의 training lifecycle 전략, 특히 새로 유입되는 데이터를 반영하면서도 기존에 학습한 역량을 잃지 않도록 FM을 최신 상태로 유지하는 방법을 평가합니다. 관련 개념은 기존 checkpoint( warm start)를 사용해 새로운 데이터로 점진적/지속적으로 학습하는 방식이며, 이를 continuous pre-training(continued pretraining)이라고 합니다. 정답이 맞는 이유: 플랫폼은 매일 새로운 다국어 기사를 수집하고, FM이 24시간 이내에 속보를 반영해야 합니다. 또한 팀은 “가중치를 재설정”하지 않고 최신 checkpoint에서 warm-start하여 rolling 90-day corpus로 학습하길 명시합니다. 이는 continuous pre-training의 전형적인 특징입니다. 즉, 최신 가중치에서 시작해 새로 수집된 도메인 데이터를 기반으로 동일한 base model을 주기적으로 계속 학습시켜, 모델이 최신 정보를 반영하도록 하면서도 일반적인 언어 능력을 유지합니다. rolling window를 사용하면 최신성(recency)과 보존(retention) 간 균형을 맞출 수 있고, 가장 최근 하루치 데이터만 학습하는 것보다 catastrophic forgetting을 줄이는 데 도움이 됩니다. 주요 AWS 기능 / Best Practices: AWS에서는 이 패턴을 보통 스케줄된 training pipeline(예: Amazon SageMaker Pipelines 또는 AWS Step Functions로 orchestration)로 구현하며, 다음을 수행합니다: 1) 매일 데이터를 Amazon S3에 정제/적재, 2) rolling 90-day training set 구성(대개 versioning 및 lineage 포함), 3) S3에 저장된 최신 model checkpoint에서 초기화하는 training job 실행, 4) 업데이트된 model을 model registry에 등록하여 통제된 배포 수행. Best practices에는 checkpointing, data/version governance, evaluation gate(회귀 탐지), drift 및 성능 저하 모니터링이 포함됩니다. 흔한 오해: “Batch learning”은 주기적 batch를 사용하므로 비슷하게 들릴 수 있지만, ML 용어에서 보통 online learning과 대비되는 개념이며, 이전 checkpoint에서 warm-start하여 FM의 pre-training을 계속 수행해 지식을 최신화한다는 의미를 구체적으로 내포하지는 않습니다. “Static training”은 한 번 학습하고 끝내는 방식이므로 24시간 최신성 요구사항을 충족하지 못합니다. “Latent training”은 FM을 최신 상태로 유지하기 위한 표준 전략이 아닙니다. 시험 팁: “warm-start from latest checkpoint”, “rolling corpus”, “daily refresh”, “base model을 최신 상태로 유지” 같은 요구사항이 보이면 continuous/continued pre-training으로 연결하세요. 반대로, 작은 labeled dataset으로 특정 작업에 맞게 적응시키는 내용이 강조되면 pre-training보다는 fine-tuning에 가깝습니다.
Amazon Bedrock을 사용하는 동안 한 팀이 44단어 채팅 메시지가 1,536개의 input tokens와 72개의 output tokens로 과금되는 것을 확인했다. 이 맥락에서 token이라는 용어는 무엇을 의미하는가?
정답. Tokens는 tokenization 이후 foundation model이 소비하고 생성하는 이산적인 텍스트 단위이다. Token은 전체 단어, 단어의 일부(subword), 구두점, 공백 마커 또는 특수 기호일 수 있다. Bedrock은 많은 models에서 이러한 input 및 output tokens를 카운트하여 측정하므로, subword 분할과 요청 오버헤드로 인해 단어 기준으로는 짧은 메시지도 token 기준으로는 크게 나올 수 있음을 설명한다.
오답. 수학적 vector 표현은 tokens가 아니라 embeddings이다. Embeddings는 semantic search 또는 retrieval-augmented generation(RAG) 같은 작업에서 의미를 표현하기 위해 사용되는 연속값 vectors이다. 과금에 사용되는 token 수는 model이 처리하는 이산적인 token IDs의 개수를 의미하며, embedding vectors의 차원이나 개수를 의미하지 않는다.
오답. Pre-trained weights는 학습 중에 학습된 model parameters(종종 수십억 개의 parameters)이다. 이는 model의 동작을 결정하며 요청별로 카운트되지 않는다. Token 과금은 runtime 사용량(처리/생성되는 텍스트의 양)에 관한 것이고, weights는 model의 크기와 학습에 관련되며 inference당 측정과는 관련이 없다.
오답. Prompts는 제공하는 instructions와 context이지만, prompt는 tokenization 이후 tokens로 구성된다. Bedrock은 prompt(및 포함된 context/system messages)의 token 수와 생성된 completion의 token 수를 기준으로 과금한다. Tokens는 prompt 자체가 아니라 prompt 내부의 단위이다.
핵심 개념: 이 문제는 generative AI 사용 및 과금에서의 “tokens”에 대한 이해를 평가하며, 특히 Amazon Bedrock에서의 개념을 다룬다. Bedrock(및 대부분의 LLM 제공업체)은 input(프롬프트 + 대화 기록 + system instructions)과 output(model이 생성한 텍스트)의 token 수를 기준으로 요청을 측정한다. 정답이 맞는 이유: Token은 model이 읽고 쓰는 텍스트의 기본 단위이다. Tokens는 항상 전체 단어가 아니며, subwords(단어 조각), 구두점, 공백 마커 또는 특수 제어 기호일 수 있다. 그래서 44단어 메시지가 훨씬 더 많은 input tokens로 매핑될 수 있다. model의 tokenizer가 단어를 여러 조각으로 분할할 수 있고, 과금되는 “input tokens”에는 눈에 보이는 사용자 메시지 외의 내용(예: system prompts, formatting wrappers, safety instructions, 이전 채팅 턴 등)이 요청과 함께 전송되어 포함되는 경우가 많기 때문이다. 주요 AWS 기능: Amazon Bedrock에서 요금 및 quota는 일반적으로 선택한 foundation model의 input tokens와 output tokens 기준으로 표현된다. Tokenization은 model별로 다르다. 서로 다른 models(심지어 서로 다른 버전)도 동일한 텍스트를 다르게 tokenize할 수 있어 token 수와 비용이 달라질 수 있다. Chat 사용 사례에서는 요청에 구조화된 message roles(system/user/assistant)이 포함되는 것이 일반적이며, 대화 context가 포함될 수 있어 input tokens가 증가한다. Token 기반 측정을 이해하면 비용 최적화(더 짧은 prompts, history trimming, context 요약)와 latency 관리에 도움이 된다. 흔한 오해: 사람들은 tokens를 embeddings(vectors)와 혼동하는 경우가 많다. 둘 다 텍스트 처리와 관련이 있기 때문이다. 또 다른 오해는 tokens가 단어와 동일하다고 가정하는 것인데, 이는 틀리다. Tokenization은 텍스트를 이산적인 IDs로 변환하는 전처리 단계이다. 또 다른 혼동은 tokens를 model parameters(weights)나 prompts 자체로 생각하는 것인데, 이는 다른 개념이다. 시험 팁: Bedrock 과금, throughput 또는 context window 관련 문제에서 “tokens”는 거의 항상 tokenizer가 생성하는 텍스트 단위(단어/subword/기호 단위)를 의미한다. Input token 수에는 숨겨진 오버헤드(system prompts, chat formatting, conversation history)가 포함될 수 있음을 기억하라. 단어 수가 token 수와 일치하지 않는 것처럼 보인다면, 이는 과금 오류가 아니라 tokenization의 세분성 및 요청 구성에 관한 문제라는 단서이다.
비디오 스트리밍 플랫폼이 악성 트래픽으로부터 콘텐츠 전송 API를 보호하기 위해 AI를 사용하려고 합니다. 이 AI는 30일간의 기준(baseline) 트래픽 패턴과 비교하여 새로운 요청의 client IP와 user agent가 의심스러운 출처에서 왔는지 판단해야 하며, 분당 최대 12,000개의 요청을 요청당 150 ms 미만의 지연 시간으로 점수화(score)하고, 비정상적인 출처를 자동으로 플래그(flag)해야 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?
Speech recognition은 오디오를 텍스트(ASR)로 변환하며 통화 전사, 음성 비서, 미디어 자막 등에 사용됩니다. 여기의 문제는 구조화된 요청 속성(client IP 및 user agent)을 다루고 의심스러운 출처를 탐지하는 것이지 오디오 신호를 해석하는 것이 아닙니다. 플랫폼이 “비디오 스트리밍”이더라도 보안 요구 사항은 API 트래픽 분석이므로 speech recognition은 적용되지 않습니다.
NLP named entity recognition (NER)은 비정형 텍스트에서 엔터티(사람, 조직, 위치 등)를 추출합니다. 이 시나리오의 입력은 요청 fingerprinting 및 행동 분석에 사용되는 client IP 주소와 user-agent 문자열입니다. user-agent가 문자열이긴 하지만, 작업은 엔터티 추출이 아니라 정상 트래픽 패턴으로부터의 편차를 식별하는 것입니다. 따라서 NER은 잘못된 ML 접근입니다.
이상 탐지(anomaly detection) 시스템은 과거 데이터(예: 30일 트래픽)로부터 정상 패턴을 학습하고, 새로운 이벤트를 점수화하여 비정상 동작을 플래그하도록 설계됩니다. 이는 새로운 요청의 IP/user-agent를 기준 패턴과 비교해 의심스러운 출처를 자동으로 식별해야 한다는 요구 사항과 직접적으로 일치합니다. 또한 저지연 추론(예: SageMaker endpoints)과 자동 대응(예: AWS WAF 업데이트)을 통해 실시간 점수화 요구(12,000 RPM, <150 ms)에도 부합합니다.
Fraud forecasting은 시간에 따른 미래의 사기 비율 또는 볼륨을 예측하는 것(시계열 forecasting)에 초점을 맞추며, 학습된 baseline에 비추어 각 들어오는 요청을 이상으로 평가하는 것이 아닙니다. 요구 사항은 개별 요청을 점수화하고 비정상 출처를 즉시 플래그하는 것이므로 이상 탐지/분류에 해당합니다. forecasting은 용량 계획이나 추세 분석을 보완할 수는 있지만, 요청 단위의 저지연 의심 출처 탐지 요구를 충족하지는 못합니다.
핵심 개념: 이 문제는 보안 텔레메트리에서 올바른 ML 문제 유형을 선택하는지를 평가합니다. 즉, 과거 기간 동안의 “정상” 동작을 학습하여 새로운 이벤트를 거의 실시간으로 점수화하면서 비정상적인 요청 출처(client IP + user agent)를 탐지하는 것입니다. 이는 NLP, 음성, 또는 시계열 예측이 아니라 전형적인 이상 탐지(anomaly detection)(대개 비지도 또는 준지도)입니다. 정답이 맞는 이유: 플랫폼은 새로운 요청을 30일간의 기준 트래픽 패턴과 비교하고 비정상적인 출처를 자동으로 플래그해야 합니다. 이는 이상 탐지에 정확히 해당합니다. 즉, 정상 패턴(예: 일반적인 IP/user-agent 조합, 빈도, geo/ASN 분포, 요청률)의 모델을 만들고, 들어오는 요청이 그로부터 얼마나 벗어나는지 점수화합니다. 또한 “분당 최대 12,000 요청을 요청당 150 ms 미만 지연으로 점수화” 요구 사항은 저지연 온라인 추론을 의미하며, 이상 탐지 시스템은 보통 real-time endpoint를 통해 이를 지원합니다. 주요 AWS 기능: AWS에서는 일반적으로 Amazon SageMaker(실시간 추론 endpoint)를 사용하고, Random Cut Forest (RCF) 같은 이상 탐지용 built-in algorithm 또는 custom model을 활용해 구현합니다. Amazon S3에 저장된 30일치 로그(예: Amazon CloudFront, ALB, API Gateway access logs, 또는 AWS WAF logs)를 기반으로 학습한 뒤, 12k RPM 및 지연 시간 목표를 충족하도록 autoscaling을 적용한 SageMaker endpoint로 배포합니다. 스트리밍 수집 및 준실시간 점수화를 위해 Amazon Kinesis Data Streams / Firehose가 feature를 모델로 전달할 수 있으며, 결과는 자동 조치(예: AWS WAF IP sets 업데이트, Amazon EventBridge로 publish, 또는 Amazon SNS로 알림)를 트리거할 수 있습니다. 이는 Well-Architected의 Security 및 Reliability pillar(탐지/대응 자동화, 수평 확장)와도 부합합니다. 흔한 오해: 일부는 “의심 트래픽”을 “fraud forecasting”과 혼동할 수 있지만, forecasting은 미래 값(예: 수요 또는 사기량)을 예측하는 것이지 개별 요청을 이상으로 분류하는 것이 아닙니다. NLP named entity recognition과 speech recognition은 입력이 텍스트 엔터티나 오디오가 아니라 구조화된 요청 메타데이터이므로 관련이 없습니다. 시험 팁: “정상 동작의 baseline”, “비정상 플래그”, “이벤트 점수화”가 보이면 이상 탐지를 떠올리십시오. “미래 추세 예측”이 보이면 forecasting입니다. ML 작업을 데이터 유형에 맞추십시오. IP/user-agent 텔레메트리는 구조화 데이터이며 언어/오디오가 아닙니다. 또한 RPM/지연 시간 같은 운영 제약은 real-time inference endpoint와 autoscaling을 시사합니다.
이동 중에도 모든 문제를 풀고 싶으신가요?
Cloud Pass를 무료로 다운로드하세요 — 모의고사, 학습 진도 추적 등을 제공합니다.
한 헬스케어 스타트업이 Amazon Bedrock에서 호스팅되는 foundation model로 few-shot prompting을 사용하고 있습니다. 현재 프롬프트에는 12개의 예제가 포함되어 있고, 모델은 매일 07:00 UTC에 하루 1회 호출되며, 출력 품질은 만족스럽습니다. 회사는 현재 성능을 유지하면서 월간 비용을 낮추고자 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?
모델을 Customize/fine-tuning하면 긴 few-shot 프롬프트의 필요성을 줄일 수 있는 경우도 있지만, 추가 비용과 운영 오버헤드(학습, 평가, 그리고 잠재적으로 더 높은 지속 비용)를 발생시킵니다. 모델이 하루 1회만 실행되고 품질이 이미 만족스러운 상황에서는, 월간 지출을 줄이면서 현재 성능을 유지하기 위한 가장 비용 효율적인 방법일 가능성이 낮습니다.
Bedrock 사용 비용은 대부분 입력 및 출력 token에 의해 좌우됩니다. 12개의 예제를 사용하는 few-shot prompting은 매 호출마다 입력 token을 증가시킵니다. 프롬프트 token을 줄이면(더 적거나 더 짧은 예제, 중복 텍스트 제거, 간결한 포맷) 동일한 모델과 호출 빈도를 유지하면서 비용을 직접적으로 낮출 수 있습니다. 품질을 유지하기 위해 점진적으로 줄이고 검증할 수 있습니다.
프롬프트의 token 수를 늘리면(예: 더 많은 예제 추가 또는 더 긴 지시문) 입력 token 사용량이 증가하여 비용이 증가합니다. 일부 경우 품질을 개선할 수 있지만, 문제에서 출력 품질이 이미 만족스럽고 목표가 월간 비용 절감이므로 요구 사항과 반대입니다.
Amazon Bedrock의 Provisioned Throughput은 보장된 용량, 예측 가능한 지연 시간, 지속적인 처리량이 필요한 워크로드를 위한 것입니다. 하루 1회 호출의 경우, provisioned capacity는 일반적으로 on-demand token 기반 사용보다 더 비쌉니다. token 과금을 줄이지도 않으며, 설명된 저빈도 사용 패턴과도 맞지 않습니다.
핵심 개념: 대부분의 foundation model에 대한 Amazon Bedrock 요금은 주로 사용량 기반(입력 token + 출력 token)입니다. Few-shot prompting은 각 예제가 프롬프트에 텍스트를 추가하므로 입력 token을 증가시킵니다. 품질이 이미 만족스럽다면, 동일한 모델과 호출 패턴을 유지하면서 비용을 줄이는 가장 직접적인 방법은 token 사용량을 줄이는 것입니다. 정답인 이유: 모델은 하루에 한 번만 호출되므로 처리량/지연 시간 보장은 요구 사항이 아닙니다. 12개의 few-shot 예제로 인해 프롬프트에는 매 호출마다 과금되는 많은 token이 포함될 가능성이 큽니다. 프롬프트의 token 수를 줄이면(예: 예제 수를 줄이기, 예제를 더 짧게 만들기, 중복 지시문 제거, 포맷 압축) 입력 token 소비가 감소하여 월간 비용이 낮아집니다. 현재 출력 품질이 만족스럽기 때문에, 성능이 허용 가능한 수준으로 유지되는지 검증하면서 token을 점진적으로 줄일 수 있어 “현재 성능 유지” 요구 사항을 충족합니다. 주요 AWS 기능: Bedrock 모델 호출 비용은 token 수에 비례해 증가하므로, prompt engineering은 지출을 제어하는 운영적 레버입니다. 실용적인 기법으로는: 가장 대표적인 few-shot 예제만 유지하기, 더 짧은 exemplar 사용하기, 장황한 system instruction 제거하기, 간결한 schema로 표준화하기 등이 있습니다. 로깅/observability(예: 프롬프트/응답 메타데이터 캡처)를 통해 token 사용량과 응답 품질을 측정하고, A/B test를 실행하여 품질이 유지되는지 확인할 수 있습니다. 흔한 오해: fine-tuning/Customize는 품질을 개선하거나 프롬프트 길이를 줄일 수 있지만, 추가 비용(학습 및 잠재적으로 호스팅/관리)과 오버헤드를 유발하며, 품질이 이미 만족스럽고 트래픽이 매우 낮은 경우에는 불필요합니다. Provisioned Throughput은 비용 절감 수단으로 오해되는 경우가 많지만, 이는 하루 1회 호출이 아니라 일관된 고처리량 워크로드와 예약 용량을 위해 설계되었습니다. 시험 팁: LLM에서 “비용을 낮추라”는 질문이 나오면, Customize나 예약 용량을 고려하기 전에 먼저 token 감소 전략(더 짧은 프롬프트, 더 적은 예제, 더 작은 출력)을 확인하십시오. Provisioned Throughput은 워크로드가 대규모에서 예측 가능한 용량/지연 시간이 필요하거나 지속적으로 높은 요청률이 있을 때만 선택하십시오. 간헐적이고 저용량 사용의 경우, on-demand token 기반 요금 + 프롬프트 최적화가 일반적으로 가장 비용 효율적인 접근입니다.
한 리테일 분석 팀이 Amazon OpenSearch Service에 2,000만 개의 768차원 텍스트 임베딩을 저장하는 retrieval-augmented generation (RAG) 프로토타입을 구축하고 있으며, 100 ms 이내에 가장 유사한 벡터 상위 20개를 검색해야 합니다. 이러한 유형의 벡터 데이터베이스 애플리케이션을 가능하게 하는 OpenSearch 기능은 구체적으로 무엇입니까?
Amazon S3와의 네이티브 통합은 스냅샷, 백업, 데이터 라이프사이클 패턴(예: 인덱스 스냅샷을 S3에 저장)에 유용합니다. 그러나 S3는 객체 스토리지이며 RAG에 필요한 저지연 고차원 유사도 검색을 제공하지 않습니다. S3 통합은 내구성과 비용 관리를 돕지만, 100 ms 이내에 임베딩의 k-NN 검색을 가능하게 하지는 않습니다.
지리공간 인덱싱 및 쿼리는 반경 내 포인트 찾기, 바운딩 박스 검색, geo-distance 정렬과 같은 위치 기반 사용 사례를 지원합니다. 이는 특화된 인덱싱 기능이지만 768차원 임베딩 벡터에 대한 시맨틱 유사도와는 관련이 없습니다. 지리공간 기능은 RAG 워크로드에서 상위 20개 최근접 임베딩을 검색하는 데 도움이 되지 않습니다.
확장 가능한 벡터 인덱스 관리 및 k-nearest neighbor (k-NN) 검색은 벡터 데이터베이스 애플리케이션을 가능하게 하는 구체적인 OpenSearch 기능입니다. 이는 벡터 필드에 임베딩을 저장하고, 대규모에서 근사 최근접 이웃 검색(top K 가장 유사한 벡터)을 효율적으로 수행할 수 있게 하여, RAG 시스템에서 흔한 엄격한 지연 시간 요구사항(예: 수천만 개 벡터에서 상위 20개 매칭 검색)을 충족합니다.
스트리밍 데이터에 대한 실시간 분석은 지속적으로 유입되는 이벤트(로그, 메트릭, 클릭스트림)를 낮은 인덱싱 지연으로 수집하고 쿼리하는 것을 의미합니다. OpenSearch가 준실시간 분석에 흔히 사용되기는 하지만, 스트리밍 지원은 여기의 핵심 요구사항인 고차원 임베딩에 대한 빠른 유사도 검색을 해결하지 못합니다. 벡터 검색 성능은 스트리밍 분석이 아니라 k-NN/ANN 인덱싱에 달려 있습니다.
핵심 개념: 이 문제는 retrieval-augmented generation (RAG)에서 사용되는 Amazon OpenSearch Service의 벡터 데이터베이스 기능, 즉 고차원 임베딩을 저장하고 대규모로 빠른 근사 유사도 검색(k-nearest neighbor)을 수행하는 능력을 평가합니다. 정답인 이유: RAG 시스템은 쿼리 임베딩에 대해 의미적으로 가장 유사한 문서를 검색해야 합니다. 2,000만 개의 768차원 벡터와 엄격한 지연 시간 목표(100 ms 이내 상위 20개)를 고려할 때, 핵심 OpenSearch 기능은 확장 가능한 벡터 인덱싱과 k-NN 검색입니다. OpenSearch는 벡터 필드와 k-NN/ANN (approximate nearest neighbor) 검색을 제공하므로 2,000만 개 임베딩을 모두 스캔하지 않고도 가장 가까운 벡터를 효율적으로 찾을 수 있습니다. 이것이 바로 OpenSearch가 시맨틱 검색과 RAG를 위한 벡터 데이터베이스로 동작하게 하는 기능입니다. 주요 AWS 기능: OpenSearch는 k-NN 기능(일반적으로 HNSW와 같은 ANN 알고리즘 기반)을 통해 벡터 검색을 지원하며, 수평 확장성을 위해 샤드와 노드 전반에서 벡터 인덱스를 관리합니다. 일반적으로 임베딩을 벡터 필드에 저장하고, ANN 인덱스 유형/파라미터를 선택한 뒤, k-NN로 쿼리하여 상위 K 결과(여기서는 K=20)를 반환합니다. 성능은 인덱스 파라미터(예: 그래프 구성/ef 설정), 샤드 크기, 인스턴스 유형(메모리/CPU), 그리고 적용 가능한 경우 후보 집합을 좁히기 위한 필터 사용에 따라 달라집니다. 이는 Well-Architected의 성능 효율성 원칙(무차별 스캔이 아니라 데이터 구조 최적화 및 scale-out)에 부합합니다. 흔한 오해: S3 통합(A)은 스냅샷 저장 또는 데이터 수집과 관련된 것이지, 저지연 벡터 유사도 검색이 아닙니다. 지리공간 인덱싱(B)은 위치 기반 쿼리에 특화된 기능으로 임베딩 유사도와는 무관합니다. 스트리밍 분석(D)은 준실시간 로그/이벤트 분석과 관련되며 ANN 벡터 검색과는 다릅니다. 시험 팁: “embeddings”, “top K similar”, “vector database”, “RAG”를 보면 “vector search”, “k-NN”, “ANN”을 찾으십시오. OpenSearch/Elasticsearch 계열 서비스에서 이를 가능하게 하는 기능은 일반 검색, 스토리지 통합, 스트리밍 기능이 아니라 k-NN/벡터 인덱스입니다. 또한 수천만 개 벡터에서 엄격한 지연 시간을 요구한다는 것은 정확한 brute-force 유사도 계산이 아니라 approximate nearest neighbor 인덱싱을 강하게 시사합니다.
한 대학 연구팀이 Amazon Bedrock을 사용하여 캠퍼스 서비스에 대한 질문에 답변하도록 foundation model을 커스터마이징했습니다. 이제 2,500개의 새로운 미확인(unseen) 쿼리에 대해 구조화된 검증을 실행하려고 하며, Amazon Bedrock이 평가를 위해 액세스할 수 있는 단일 150 MB JSONL 파일을 Bedrock 인스턴스와 동일한 AWS Region에 업로드해야 합니다. Bedrock이 object storage에서 이 데이터를 직접 읽을 수 있도록, 이 데이터셋을 저장하는 데 어떤 AWS 서비스를 사용해야 합니까?
Amazon S3는 AWS의 네이티브 object storage 서비스이며 Amazon Bedrock 같은 관리형 서비스가 소비하는 데이터셋의 소스 위치로 일반적으로 사용되므로 정답입니다. 150 MB JSONL 파일은 S3 객체 제한 내에 충분히 들어가며, 동일한 Region의 S3 bucket에 저장하면 적절한 IAM 권한(및 선택적으로 SSE-KMS 암호화)과 함께 S3 URI를 통해 Bedrock이 액세스할 수 있습니다.
Amazon EBS는 EC2 인스턴스(또는 특정 관리형 컴퓨팅 서비스)에 볼륨으로 연결하도록 설계된 block storage입니다. object storage 서비스가 아니며 Bedrock 평가에서 “object storage에서 읽기”를 위한 직접 통합 지점을 제공하지 않습니다. EBS를 사용하면 데이터를 호스팅하고 노출하기 위한 컴퓨팅을 프로비저닝해야 하므로 불필요한 복잡성이 추가되고, 제시된 요구 사항을 충족하지 못합니다.
Amazon EFS는 주로 EC2, containers, 그리고 파일 시스템을 mount할 수 있는 일부 AWS 컴퓨팅 서비스에서 사용하는 관리형 network file system(NFS)입니다. 파일을 저장할 수는 있지만 object storage가 아니며 Bedrock 평가 데이터셋의 표준 직접 입력 소스도 아닙니다. 또한 단순한 S3 객체 참조가 아니라 mount 환경과 네트워크 구성이 필요합니다.
AWS Snowcone은 연결이 제한적이거나 거친 환경에서 주로 사용되는 오프라인/엣지 컴퓨팅 및 AWS로의 데이터 전송용 소형 엣지 디바이스입니다. Bedrock이 평가 job에서 직접 읽을 수 있는 리전 기반 object storage 서비스가 아닙니다. Snowcone은 데이터를 AWS로 옮기는 데는 도움이 될 수 있지만, Bedrock이 직접 액세스하려면 결국 데이터셋은 S3에 저장되어야 합니다.
핵심 개념: 이 문제는 Amazon Bedrock이 모델 평가 데이터셋을 직접 읽을 수 있는 object storage를 제공하는 AWS 스토리지 서비스를 묻습니다. Bedrock 평가 워크플로는 일반적으로 Amazon S3에 저장된 데이터셋(예: JSONL 파일)을 동일한 AWS Region에서 S3 URI로 참조합니다. 정답이 맞는 이유: Amazon S3는 단일 150 MB JSONL 데이터셋과 같은 파일(객체)을 저장하고 검색하도록 설계된 AWS의 리전 기반 object storage 서비스입니다. S3는 AWS 서비스 전반에 네이티브로 통합되어 있고 관리형 AI/ML 서비스가 표준적으로 참조하는 “object storage” 대상이므로 Bedrock은 S3에서 평가 입력을 액세스할 수 있습니다. Bedrock 리소스와 동일한 Region의 S3 bucket에 데이터셋을 저장하면 리전 액세스 요구 사항을 충족하고 지연 시간 및 데이터 전송 복잡성을 최소화할 수 있습니다. 주요 AWS 기능 / 모범 사례: S3는 내구성이 높고 가용성이 뛰어난 스토리지를 간단한 액세스 패턴(S3 URI)으로 제공하며, 150 MB를 훨씬 초과하는 대용량 객체도 잘 지원하고, IAM과 통합되어 세분화된 액세스 제어가 가능합니다. Bedrock이 데이터셋을 읽을 수 있도록 일반적으로 Bedrock 서비스 role 또는 평가 job에 사용되는 execution role에 권한(예: bucket/prefix에 대한 s3:GetObject)을 부여합니다. 또한 bucket policy, 암호화(SSE-S3 또는 SSE-KMS), S3 versioning을 적용하여 거버넌스와 반복 가능한 평가를 구현할 수 있습니다. 흔한 오해: EBS와 EFS는 컴퓨팅(EC2, 일부 container runtime)에 연결되는 파일/블록 스토리지이며, Bedrock이 직접 읽는 “object storage” 엔드포인트가 아닙니다. Snowcone은 엣지/오프라인 데이터 전송 및 컴퓨팅 디바이스로, 온라인 서비스 액세스를 위한 리전 기반 object store가 아닙니다. 이 옵션들도 데이터를 저장할 수 있어 그럴듯해 보이지만, “object storage에서 직접 읽기” 요구 사항과는 맞지 않습니다. 시험 팁: 문제에서 “object storage”, “파일 업로드”, “서비스가 bucket에서 읽음”, 또는 관리형 ML/GenAI 서비스용 데이터셋을 언급하면, 특정 제약으로 다른 서비스를 선택해야 하는 경우가 아니라면 기본적으로 Amazon S3를 선택하세요. 또한 Region 요구 사항을 확인하세요. 동일한 Region의 S3 bucket을 선택하고, IAM 권한 및(필요한 경우) KMS key policy가 서비스가 객체를 읽을 수 있도록 허용하는지 확인해야 합니다.
한 e-commerce 마켓플레이스가 Amazon Bedrock에서 managed large language model을 사용해 제품 Q&A assistant를 배포할 계획이다. 2일간의 파일럿에서 각 요청은 평균 800 prompt tokens와 200 completion tokens를 사용하며, temperature는 0.7로 설정되어 있고, 모델에 대해 custom training 또는 fine-tuning은 수행하지 않는다. 시스템이 10,000개의 요청을 처리할 때, 일일 inference 요금을 주로 좌우하는 요인은 무엇인가?
정답. Amazon Bedrock의 on-demand inference 요금은 주로 token 사용량, 즉 input(prompt) tokens와 output(completion) tokens의 합에 기반한다. 하루 10,000건의 요청과 요청당 약 1,000 tokens라면, 일일 총 tokens가 비용을 지배한다. 이는 일반적인 Bedrock 모델 pricing이 input tokens와 output tokens에 대해 각각 별도의 요율을 명시하는 방식과 일치한다.
오답. Temperature는 생성의 무작위성/창의성을 제어하여 결정성에 영향을 주고 때로는 간접적으로 응답 길이에 영향을 줄 수 있다. 그러나 Bedrock은 “temperature 설정값”으로 과금하지 않는다. 과금은 사용량(주로 tokens)으로 측정된다. Temperature가 출력 스타일을 바꾸더라도, 요금은 생성 및 처리된 tokens 수에 의해 좌우된다.
오답. 시나리오에서 custom training 또는 fine-tuning을 수행하지 않는다고 명시한다. Training 데이터 볼륨은 모델 customization(fine-tuning) 또는 별도의 training 워크플로가 포함될 때만 중요하다. Bedrock에서 managed FM inference의 경우, provider의 원래 pre-training 데이터가 아니라 inference 사용량(tokens)에 대해 비용을 지불한다.
오답. 여기서는 고객이 모델을 training하지 않으므로 training 시간은 관련이 없다. Bedrock은 고객이 보통 inference API를 소비하는 managed foundation models를 제공한다. Training duration 기반 요금은 Amazon SageMaker training 같은 서비스의 training jobs 또는 특정 customization 워크플로에 적용되며, 표준 Bedrock inference에는 해당되지 않는다.
핵심 개념: Amazon Bedrock의 managed foundation models에 대한 inference pricing은 주로 사용량 기반이다. 대부분의 Bedrock 모델에서 on-demand inference 요금은 처리된 tokens 수(입력/prompt tokens + 출력/completion tokens)에 의해 결정된다. 이 문제는 generative AI inference가 어떻게 측정되고 과금되는지에 대한 이해를 평가한다. 정답이 맞는 이유: 하루 10,000건의 요청과 요청당 평균 800 prompt tokens + 200 completion tokens라면, 요청당 약 1,000 tokens를 소비하며 하루 총 약 10,000,000 tokens를 소비한다. Bedrock의 inference 비용은 서비스가 모델에 보내는 텍스트 양과 모델이 생성하는 텍스트 양을 측정하기 때문에 이 token 볼륨에 따라 증가한다. fine-tuning이나 custom training을 수행하지 않으므로 training 관련 요금은 고려할 필요가 없다. 따라서 지배적인 비용 요인은 요청당 소비되는 tokens 수이다. 주요 AWS 기능: Bedrock은 여러 foundation models에 대한 액세스를 제공하며, pricing은 일반적으로 1,000(또는 1 million) input tokens당 요금과 1,000(또는 1 million) output tokens당 요금으로 표시되고, 종종 서로 다른 요율이 적용된다. 이는 prompt optimization(더 짧은 prompts), 응답 길이 제한(max tokens), caching/retrieval 전략(RAG로 불필요한 context 감소), 그리고 지원되는 경우 request batching을 통해 비용을 제어하도록 유도한다. Temperature는 무작위성에 영향을 주는 inference parameter이지만, 과금 단위를 바꾸지는 않는다. 흔한 오해: 많은 사람들이 “temperature” 또는 다른 generation 설정이 비용을 직접 바꾼다고 생각한다. Temperature가 출력 길이나 재시도에 간접적으로 영향을 줄 수는 있지만(그 결과 tokens가 늘어날 수 있음), 과금 메커니즘 자체는 여전히 token 기반이다. 또 다른 오해는 training 시간이나 training 데이터가 inference 요금에 영향을 준다는 것인데, 이는 실제로 모델을 training하거나 fine-tuning할 때만 해당된다(그리고 Bedrock의 managed FMs는 보통 고객이 직접 training을 관리하지 않고 사용한다). 시험 팁: Bedrock 및 대부분의 LLM 서비스에서 inference 비용은 보통 입력 + 출력 tokens에 비례한다는 점을 기억하라. 요청 수와 평균 token 수로부터 일/월간 token 총량을 항상 대략 계산하라. Inference pricing과 customization(fine-tuning) pricing을 구분하고, 문제에서 compute time 또는 provisioned throughput 기반 pricing을 명시하지 않는 한 모델 hyperparameters(temperature, top-p)를 과금 차원과 혼동하지 마라.
한 핀테크 스타트업은 Amazon S3에 매일 도착하는 120개의 CSV 파일(약 80 GB)을 처리하기 위해 AWS Glue ETL job을 구축해야 하지만, 팀은 AWS Glue 프로그래밍 경험이 거의 없고 2일 이내에 작동하는 PySpark job을 만들기 위해 AWS console에서 직접 단계별 안내와 코드 제안을 원한다. AWS Glue를 구축하고 사용하는 데 도움을 받기 위해 어떤 AWS service를 사용해야 하는가?
Amazon Q Developer가 가장 적절한 정답인 이유는 개발자를 위한 AWS의 AI 기반 도우미로서, 사용자가 AWS에서 애플리케이션과 워크플로를 더 빠르게 구축하도록 설계되었기 때문입니다. AWS Glue ETL job의 경우, PySpark 코드를 생성하거나 설명하고, 구현 패턴을 제안하며, Amazon S3에서 읽기, 데이터 변환, 출력 쓰기와 같은 Glue 기능 사용 방법에 대한 가이드를 제공할 수 있습니다. 이는 Glue 프로그래밍 경험이 제한적이고 제공 일정이 촉박한 팀에 특히 가치가 있습니다. 보기 중에서 개발자 생산성과 가이드형 코드 지원이 주된 목적의 서비스는 이것뿐입니다.
AWS Config는 AWS 리소스의 구성을 평가, 감사, 검증하는 서비스입니다. 리소스가 원하는 규칙이나 정책을 준수하는지 확인하는 등 규정 준수 모니터링과 거버넌스를 지원합니다. 하지만 코드 생성, 단계별 개발 지원, 또는 AWS Glue job을 위한 PySpark 작성 지원은 제공하지 않습니다. 따라서 가이드형 ETL job 생성 요구 사항을 충족하지 못합니다.
Amazon Personalize는 추천 시스템과 개인화된 사용자 경험을 구축하는 데 사용되는 관리형 machine learning 서비스입니다. 목적은 사용자 행동과 항목 메타데이터를 기반으로 추천을 생성하는 것이지, 개발자가 ETL 코드를 작성하거나 AWS Glue를 학습하도록 돕는 것이 아닙니다. ETL 파이프라인이 Personalize용 데이터를 준비할 수는 있지만, 서비스 자체가 Glue에 대한 개발 가이드를 제공하지는 않습니다. 따라서 문제에서 설명한 요구와는 관련이 없습니다.
Amazon Comprehend는 텍스트에서 엔터티, 감정, 핵심 구문, PII와 같은 인사이트를 추출하는 natural language processing 서비스입니다. 텍스트 분석 워크로드에는 유용하지만, 개발자 도우미가 아니며 사용자가 AWS Glue ETL job을 구축하도록 돕지 않습니다. Glue용 단계별 코딩 가이드를 제공하거나 PySpark 스크립트를 생성할 수 없습니다. 따라서 제시된 요구 사항을 충족하지 않습니다.
핵심 개념: 사전 경험이 거의 없는 팀이 AWS Glue ETL job을 빠르게 만들 수 있도록 AI 기반 개발자 지원을 제공하는 AWS 서비스를 식별하는 것입니다. 정답은 Amazon Q Developer입니다. 이는 AWS 개발 작업(Glue 관련 PySpark 패턴 포함)에 대해 대화형 안내, 코드 생성, 문제 해결 지원을 제공하기 때문입니다. 주요 기능에는 코드 제안, AWS 서비스 및 API 설명, 그리고 팀이 서비스별 프로그래밍에 익숙하지 않을 때 구현을 가속화하도록 돕는 기능이 포함됩니다. 흔한 오해는 운영 또는 ML 서비스를 개발자 지원 도구와 혼동하는 것입니다. AWS Config는 규정 준수를 위한 서비스이고, Personalize와 Comprehend는 애플리케이션 AI 서비스이지 코딩 도우미가 아닙니다. 시험 팁: 문제에서 단계별 안내, 코드 제안, 그리고 개발자가 AWS에서 더 빠르게 구축하도록 돕는 점을 강조하면 Amazon Q Developer를 떠올리세요.
이동 중에도 모든 문제를 풀고 싶으신가요?
Cloud Pass를 무료로 다운로드하세요 — 모의고사, 학습 진도 추적 등을 제공합니다.
지역 e-commerce 스타트업이 6주간의 연말(holiday) 캠페인을 계획하고 있으며, 라벨링된 과거 데이터셋에 의존하지 않고 100단어 이하의 텍스트 브리프에서 주당 300개의 고유한 마케팅 에셋을 자동으로 생성할 수 있는 솔루션이 필요합니다. 다음 중 이 요구사항에 대한 generative AI 사용 사례를 가장 잘 나타내는 것은 무엇입니까?
Intrusion detection and anomaly flagging is a security analytics/ML classification use case, typically using services like Amazon GuardDuty, Amazon Detective, or custom anomaly detection. It focuses on identifying suspicious patterns, not generating new content. It also often relies on historical telemetry and baselines rather than prompt-driven creation, so it does not match the requirement to generate marketing assets from short text briefs.
This is a direct generative AI use case: text-to-image generation to create photorealistic marketing/product images from short prompts. It satisfies the need for hundreds of unique assets per week and does not require labeled historical datasets because pretrained foundation models can generate images via prompting. On AWS, this aligns well with Amazon Bedrock image generation models (invoked via API) and storing outputs in Amazon S3 for campaign workflows.
Optimizing indexing strategies is a database engineering/performance tuning activity (e.g., Amazon RDS, Aurora, DynamoDB design patterns). It is not an AI/ML task and does not involve generating new content. While it can improve query latency and throughput, it does not address the requirement to create marketing assets from text briefs, so it is not a generative AI use case.
Forecasting financial time-series data is a predictive analytics/ML use case (e.g., Amazon Forecast or custom models in SageMaker). It produces predictions (future values) rather than creative assets like images. It also commonly benefits from historical labeled/structured time-series data. Therefore, it does not match the prompt-based, content-generation requirement described in the question.
핵심 개념: 이 문제는 generative AI 사용 사례를 식별하는지를 평가합니다. 즉, 라벨링된 과거 학습 데이터 없이도 프롬프트로부터 새로운 콘텐츠(이미지, 텍스트, 오디오)를 생성하기 위해 foundation model을 사용하는 것입니다. AWS에서는 일반적으로 Amazon Bedrock(또는 Amazon SageMaker JumpStart)을 사용해 pretrained 이미지 생성 모델에 접근하고 짧은 텍스트 브리프에서 에셋을 생성하는 것으로 매핑됩니다. 정답이 맞는 이유: 스타트업은 6주 캠페인 동안 짧은(<=100단어) 텍스트 브리프에서 주당 300개의 고유한 마케팅 에셋을 자동 생성해야 하며, 라벨링된 과거 데이터셋에 의존할 수 없다고 명시되어 있습니다. 이는 텍스트-투-이미지 생성과 정확히 일치합니다. generative model은 프롬프트로부터 새롭고 photorealistic한 제품/마케팅 이미지를 합성할 수 있습니다. “고유한 에셋” 요구사항은 generative AI의 대표적 특징(새로운 출력 생성)이며, “라벨링된 데이터 없음” 제약은 supervised ML에서 벗어나, 처음부터 학습시키기보다 프롬프트로 사용할 수 있는 pretrained foundation model(필요 시 제한적 커스터마이징 가능) 쪽을 가리킵니다. 주요 AWS 기능: Amazon Bedrock을 사용하면 API를 통해 이미지 생성 foundation model을 호출하고, 파라미터(예: seed, guidance, style)로 변동성/고유성을 제어하며, serverless 패턴(AWS Lambda, Step Functions, EventBridge)을 통해 생성 규모를 확장하여 주간 물량을 충족할 수 있습니다. 결과물은 Amazon S3에 저장하고, 프롬프트/메타데이터를 추적하며, IAM으로 최소 권한 액세스를 적용할 수 있습니다. 브랜드 일관성이 필요하다면, 지원되는 경우 model customization을 검토하거나 프롬프트 템플릿 및 reference image(모델에 따라 다름)를 사용하면서도 라벨링된 데이터셋은 피할 수 있습니다. 흔한 오해: 이상 탐지, 예측, 성능 튜닝 옵션은 “predictive/analytical” 또는 “systems engineering” 작업이지 콘텐츠 생성이 아닙니다. ML을 사용할 수는 있지만, 프롬프트로부터 새로운 창작 에셋을 만들어내지는 않습니다. 또한 어떤 사람들은 모든 AI 자동화를 generative AI로 생각할 수 있으나, 시험에서는 “generative AI”가 구체적으로 새로운 콘텐츠를 생성하는 것을 의미합니다. 시험 팁: “generate”, “create”, “from prompts”, “unique assets”, “no labeled data”, “foundation model” 같은 키워드를 찾으세요. 이는 generative AI 및 Amazon Bedrock 같은 서비스를 강하게 시사합니다. 작업이 classification, detection, forecasting이라면 보통 generative AI가 아니라 전통적인 ML/analytics입니다.
FERPA의 적용을 받는 학생 PII를 포함한 12 TB의 독점 학습 콘텐츠를 관리하고 3개 리전에서 운영하는 한 edtech 회사가, 제안된 4가지 솔루션 범위 전반에서 보안 책임을 평가하기 위해 AWS Generative AI Security Scoping Matrix를 사용하고 있습니다. 이 매트릭스에 따르면, 어떤 접근 방식이 회사에 보안 책임에 대한 가장 큰 소유권을 부여합니까?
GenAI가 내장된 타사 엔터프라이즈 SaaS를 라이선싱하면 대부분의 보안 책임(애플리케이션 보안, 모델 운영, 패치, 가용성)은 SaaS 제공자에게 있습니다. 고객은 주로 identity/access, 구성, 데이터 거버넌스 결정(업로드할 데이터, 보존, 사용자 권한)을 관리합니다. scoping matrix에서 이는 일반적으로 고객 소유권이 가장 낮은 모델입니다.
API를 통해 타사 FM을 사용하면 SaaS 대비 고객 책임이 증가합니다(애플리케이션, prompt, 커넥터, 저장된 출력의 보안을 고객이 담당). 그러나 FM 제공자는 여전히 핵심 모델 학습, model-layer 보안 통제, 추론 플랫폼의 상당 부분을 소유합니다. 고객은 안전한 통합, 데이터 최소화, 전송 중 암호화, prompt에서의 민감 데이터 유출 방지에 집중해야 합니다.
타사 FM을 fine-tuning하면 단순 API 사용보다 고객 책임이 더 커집니다. 학습 데이터 준비, 프라이버시 통제, 유해 출력에 대한 평가를 고객이 관리하기 때문입니다. 하지만 기본 base model과 (종종) managed training/inference 환경은 제공자/서비스가 통제합니다. 고객 소유권은 높지만, 완전히 처음부터 모델을 구축하고 학습하는 것만큼 높지는 않습니다.
처음부터 모델을 구축, 학습, 배포하는 것은 고객의 보안 소유권을 극대화합니다. 데이터 파이프라인, 학습 인프라, 모델 아티팩트, 배포 엔드포인트, 모니터링, 인시던트 대응을 고객이 직접 보호해야 합니다. 전체 ML 라이프사이클 전반에서 PII에 대한 FERPA 정렬 통제, 리전별 컴플라이언스, 암호화, 접근 제어, 로깅, 거버넌스를 구현해야 합니다. 이는 매트릭스에서 가장 높은 책임 범위입니다.
핵심 개념: 이 문제는 AWS Generative AI Security Scoping Matrix 개념을 평가합니다. 관리형 SaaS로 GenAI를 소비하는 단계에서 자체 모델을 구축 및 학습하는 단계로 이동할수록, 조직이 부담하는 보안 책임(데이터 거버넌스, 모델 보안, 인프라, SDLC, 모니터링, 컴플라이언스)이 점진적으로 증가합니다. 정답인 이유: 옵션 D(회사의 자체 데이터를 사용하여 모델을 처음부터 설계, 구축 및 학습)는 회사에 보안 책임에 대한 가장 큰 소유권을 부여합니다. scoping matrix에서 이는 고객 책임이 가장 높은 시나리오로, 고객이 전체 스택을 통제하며(그리고 보안도 책임져야 하며) 데이터 수집 및 라벨링, 학습 파이프라인, 모델 아티팩트, 평가, 배포 엔드포인트, 지속적인 운영까지 모두 포함됩니다. 3개 리전에 걸쳐 FERPA의 적용을 받는 학생 PII와 12 TB의 독점 콘텐츠가 있는 상황에서는, 회사가 기밀성, 무결성, 접근, 데이터 레지던시, 보존, 감사 가능성에 대한 엔드투엔드 통제를 구현해야 합니다. 주요 AWS 기능 / 모범 사례: 이 범위에서 회사는 기본 클라우드에 대한 AWS shared responsibility에 의존하되, 그 위의 모든 것을 구성해야 합니다. 예: IAM least privilege, 데이터/모델 아티팩트에 대한 KMS 암호화, VPC 격리 및 private connectivity, Secrets Manager, CloudTrail/CloudWatch 로깅, GuardDuty/Security Hub, S3 bucket policy 및 access point, 데이터 분류 및 DLP 통제, 강력한 SDLC 통제(code scanning, artifact signing). 멀티 리전 운영의 경우, replication, key policy, 리전별 컴플라이언스 통제도 관리해야 합니다. 흔한 오해: fine-tuning(옵션 C)은 독점/PII 데이터가 사용되므로 “가장 책임이 큰” 것처럼 느껴질 수 있지만, base model과 플랫폼 책임의 상당 부분은 여전히 모델 제공자 및/또는 managed service에 있습니다. API를 통해 FM을 사용하는 것(옵션 B)은 민감한 prompt가 포함될 수 있으나, 제공자가 여전히 대부분의 model-layer 보안을 소유합니다. SaaS(옵션 A)는 벤더가 애플리케이션, 모델, 운영 보안의 상당 부분을 관리하므로 고객 소유권이 가장 낮습니다. 시험 팁: “가장 큰 소유권/책임(MOST ownership/responsibility)”을 묻는 문제에서는, 모델을 직접 build/train/host하는 옵션을 선택하십시오. “가장 적은(LEAST)”은 SaaS를 선택하십시오. 옵션을 스펙트럼에 매핑하십시오: SaaS(최저) -> API 소비 -> fine-tune -> 처음부터 build/train(최고).
한 지역 의료 서비스 제공업체가 대규모 언어 모델(LLM)로 구동되는 트리아지 챗봇을 배포하고 있습니다. 이 챗봇은 예약 및 보험 관련 질문에 답하고 벡터 인덱스에서 클리닉 정책을 검색합니다. 레드팀 테스트 동안, temperature를 0.2로 설정하고 8,192-token 컨텍스트 윈도우를 사용했음에도 500개의 적대적 프롬프트 중 12%가 모델을 강제로 유도하여 마스킹된 샘플 ID를 공개하게 만들었습니다. 민감한 정보 또는 안전하지 않은 동작을 유도하려는 prompt-injection 및 jailbreak 시도의 위험을 가장 효과적으로 줄이는 조치는 무엇입니까?
정답입니다. 구조화된 system prompt와 재사용 가능한 template은 prompt injection에 대한 기본 완화책으로, 엄격한 행동 경계를 정의하고 역할 변경/오버라이드 시도를 명시적으로 거부하며 거부 및 안전한 완료(safe-completion) 패턴을 표준화합니다. 이는 모호성을 줄이고 적대적 프롬프트가 지시를 대체하기 어렵게 만듭니다. AWS 배포에서는 더 강력한 defense-in-depth를 위해 Bedrock Guardrails 및 애플리케이션 계층 검증과 함께 잘 결합됩니다.
오답입니다. Temperature를 높이면 일반적으로 출력 변동성이 증가하여 재현성은 낮아질 수 있지만 취약성을 줄이지는 못합니다. 많은 경우 안전성을 악화시켜 모델이 예기치 않거나 정책을 위반하는 콘텐츠를 생성할 가능성을 높일 수 있습니다. 보안 통제는 무작위성에 의존하기보다 결정론적이고 강제 가능해야 합니다(guardrails, filtering, access control).
오답입니다. SageMaker 목록(또는 어떤 카탈로그)에서 모델을 선택한다고 해서 prompt injection이나 jailbreak이 본질적으로 방지되지는 않습니다. Prompt injection은 주로 애플리케이션 계층 및 상호작용 패턴의 문제이지, 모델 출처(provenance)만의 문제가 아닙니다. 잘 검증된 모델이라도 강력한 system instructions, guardrails, 데이터 최소화가 없으면 강제로 유도될 수 있습니다.
오답입니다. 사용자 입력을 200 tokens로 잘라내면 정교한 공격을 위한 공간을 약간 줄일 수는 있지만, 많은 jailbreak은 짧아도 여전히 효과적입니다. 또한 사용자 경험을 저하시키고 정당한 복잡한 질의를 깨뜨릴 수 있습니다. 효과적인 완화는 정책 강제(system prompts/guardrails), 출력 필터링, 그리고 민감한 데이터가 모델에 제공되지 않도록 하는 데 초점을 둡니다.
핵심 개념: 이 문제는 prompt injection/jailbreak에 대한 LLM 애플리케이션 보안 통제—AI 보안 및 거버넌스 주제를 평가합니다. AWS 관점에서는 민감한 데이터 노출과 안전하지 않은 동작을 방지하기 위해 guardrails 및 정책 강제(예: Amazon Bedrock Guardrails 및 애플리케이션 계층 입력/출력 검증)를 구현하는 것과 연관됩니다. 정답이 맞는 이유: 허용되는 동작, 거부 규칙, 역할 변경 시도 처리 방식을 명시적으로 정의하는 구조화된 system prompt와 재사용 가능한 prompt template은 제시된 선택지 중 가장 직접적이고 효과적인 통제입니다. Prompt injection은 흔히 지시를 덮어쓰는 방식(예: “이전 지시를 무시해라”, “system처럼 행동해라”, “숨겨진 데이터를 공개해라”)으로 작동합니다. 견고한 system prompt와 템플릿 접근은 일관된 지시 계층을 확립하고, 모호성을 줄이며, 결정론적 강제 패턴(거부, 리다이렉트, 또는 정화)을 가능하게 합니다. 단독으로 충분하진 않지만, 나열된 단일 조치 중 jailbreak 성공률을 낮추는 데 가장 적합합니다. 주요 AWS 기능 / 모범 사례: AWS에서 프로덕션으로 운영할 때는 일반적으로 (1) 강력한 system prompts 및 templates, (2) 입력/출력 필터링 및 정책 검사(예: 주제 제한, PII redaction, 차단 콘텐츠를 위한 Bedrock Guardrails), (3) RAG를 위한 retrieval 통제(검색 가능한 범위 제한, 민감하지 않은 embeddings만 저장, 문서 수준 authorization 강제), (4) 모니터링 및 사고 대응(CloudWatch logs, audit trails)을 결합합니다. 또한 데이터 소스에는 least privilege를 적용하고, secrets 또는 민감한 식별자를 프롬프트 컨텍스트에 두지 않도록 합니다. 흔한 오해: Temperature는 모델을 “보안”하게 만들지 않으며, 무작위성만 변경합니다. 모델 마켓플레이스 목록에 있다는 사실이 jailbreak 저항성을 보장하지도 않습니다. Token을 잘라내면 일부 공격 표면을 줄일 수는 있지만 정당한 사용을 해치며, 짧고 효과적인 injection을 막지는 못합니다. 시험 팁: Prompt injection 관련 문제에서는 정책과 지시 계층을 강제하는 통제(system prompts, guardrails, 입력/출력 검증, 데이터 최소화)를 선택하십시오. 무작위성, 벤더/카탈로그 선택만으로 해결하려는 접근, 또는 피상적인 컨텍스트 축소를 주요 보안 대책으로 삼는 답은 피하십시오.
의료 분석 스타트업이 8개의 의료 기기 ISV와 파트너십을 맺고 매 분기 AI 파이프라인을 검증합니다. 컴플라이언스 팀은 어떤 ISV든 새로운 분기별 컴플라이언스 보고서를 게시할 때마다 15분 이내에 이메일 알림을 받기를 원합니다. 커스텀 폴링 솔루션을 구축하지 않고, 서드파티 데이터 제품에 대한 구독을 지원하는 관리형 AWS 서비스를 사용하려고 합니다. 스타트업은 어떤 AWS 서비스를 사용해야 합니까?
AWS Audit Manager는 AWS 서비스에서 증거를 지속적으로 수집하고 이를 컴플라이언스 프레임워크(예: HIPAA, SOC)에 매핑하여 감사를 단순화하는 데 도움을 줍니다. 이는 서드파티 ISV가 분기별 보고서를 게시하는 구독 플랫폼이 아니며, “외부 벤더가 새 보고서를 게시”했을 때의 알림 워크플로를 기본적으로 제공하지도 않습니다. 파트너 콘텐츠 배포가 아니라 AWS 환경의 통제를 평가하는 것입니다.
AWS Artifact는 AWS 컴플라이언스 보고서(예: SOC 보고서, ISO 인증)에 대한 온디맨드 액세스를 제공하고 특정 계약의 수락을 허용합니다. 이는 AWS가 제공하는 artifact로 제한되며, 서드파티 의료 기기 ISV 보고서에는 해당하지 않습니다. Artifact는 컴플라이언스 문서에서 핵심이지만, 외부 데이터 제품 구독이나 ISV가 새 분기 보고서를 게시할 때 알림을 제공하는 기능은 지원하지 않습니다.
AWS Trusted Advisor는 비용 최적화, 성능, 보안, 내결함성, 서비스 한도 전반에 걸쳐 모범 사례 권장 사항과 점검을 제공합니다. 특정 계정 관련 발견 사항에 대해 알림을 생성할 수는 있지만, 서드파티 데이터 제품 구독이나 게시 이벤트와는 관련이 없습니다. Trusted Advisor는 외부 ISV가 컴플라이언스 보고서를 게시할 때 알리지 않으며, AWS 계정 상태에 초점을 맞춥니다.
AWS Data Exchange는 제공자가 게시한 서드파티 데이터 제품을 구독하고 소비하도록 설계되었습니다. ISV는 분기별 컴플라이언스 보고서를 데이터셋 revision으로 게시할 수 있으며, 구독자는 관리형 이벤트 기반 통합(일반적으로 SNS 이메일로 라우팅되는 EventBridge 이벤트)을 사용해 새 revision이 게시될 때 알림을 받아, 커스텀 폴링 솔루션 없이 15분 요구사항을 충족할 수 있습니다.
핵심 개념: 이 문제는 커스텀 폴링 없이 업데이트에 대한 알림을 트리거하면서 서드파티 데이터 제품을 배포하고 구독하기 위한 AWS 관리형 서비스에 대한 지식을 테스트합니다. 또한 컴플라이언스 워크플로와 이벤트 기반 통합도 다룹니다. 정답이 맞는 이유: AWS Data Exchange는 제공자(ISV)가 데이터 제품을 게시하고 구독자(스타트업)가 해당 제품을 구독하도록 설계되었습니다. 제공자가 새 revision(예: 분기별 컴플라이언스 보고서)을 게시하면, 구독자는 관리형 통합(일반적으로 AWS Data Exchange 작업에 대한 Amazon EventBridge 이벤트)을 통해 알림을 받을 수 있어, 폴링 메커니즘을 구축하지 않고도 거의 실시간(15분 이내)으로 경고를 받을 수 있습니다. 이는 “관리형 AWS 서비스”, “서드파티 데이터 제품에 대한 구독”, “게시 시 이메일 알림” 요구사항과 일치합니다. 주요 AWS 기능: 1) 데이터 제품과 revision: ISV는 데이터셋을 제품으로 게시할 수 있으며, 각 분기 보고서는 새로운 revision이 될 수 있습니다. 2) 구독 모델: 스타트업은 한 번 구독하면, 게시되는 즉시 새로운 revision에 대한 액세스를 받습니다. 3) 이벤트 기반 알림: AWS Data Exchange 이벤트(예: 새 revision 게시)에 대해 Amazon EventBridge 규칙을 사용하고 Amazon SNS로 라우팅하여 이메일로 전달합니다. 이는 표준 서버리스 패턴인 EventBridge -> SNS(이메일 구독)로, “커스텀 폴링 없음” 요구사항을 충족합니다. 4) 거버넌스 및 감사 가능성: Data Exchange는 액세스 제어를 위해 IAM과 통합되고 API 감사를 위해 CloudTrail과 통합되어, 컴플라이언스 요구에 부합합니다. 흔한 오해: AWS Artifact와 AWS Audit Manager는 컴플라이언스 관련이므로 관련 있어 보일 수 있습니다. 하지만 Artifact는 서드파티 ISV 게시물이 아니라 AWS 자체 컴플라이언스 보고서를 위한 것입니다. Audit Manager는 프레임워크에 대한 증거 수집을 자동화하는 데 도움을 주지만, 외부 ISV 보고서를 위한 마켓플레이스/구독 서비스 역할을 하지는 않습니다. Trusted Advisor는 AWS 계정 상태에 대한 모범 사례 점검과 알림을 제공할 뿐, 서드파티 보고서 게시와는 관련이 없습니다. 시험 팁: “서드파티 데이터 제품 구독”과 “제공자가 업데이트를 게시”라는 문구가 보이면 AWS Data Exchange를 떠올리세요. 또한 “폴링 없이 알림”이 요구되면 EventBridge와 SNS를 함께 연상하세요. Artifact는 특히 “AWS 컴플라이언스 문서”이고, Audit Manager는 “증거 수집 및 통제 평가”, Trusted Advisor는 “계정 최적화 점검”입니다.
한 지역 은행이 신청자 텍스트 요약과 구조화된 재무 특성을 모두 사용하여 소기업 대출에 대한 승인 권고를 생성하도록 foundation model (FM)을 fine-tuning하고 있습니다. 규제 기관은 4개 인구통계학적 그룹 전반의 편향 지표와 각 예측별 특성 기여도(예: SHAP)를 포함한 투명하고 감사 준비가 된 설명을 요구하며, 매주 모델 업데이트 후 24시간 이내에 샘플링된 추론의 최소 90%에 대해 이를 제공해야 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?
Amazon Inspector는 워크로드(예: EC2 인스턴스, ECR의 container image, 특정 Lambda package 스캐닝)에 대한 자동화된 취약점 관리를 중점으로 합니다. 이는 보안 상태와 CVE 탐지에 도움이 되지만 ML 투명성과는 관련이 없습니다. Inspector는 인구통계학적 그룹 전반의 공정성/편향 지표를 계산하지 않으며 SHAP 같은 추론별 특성 기여도를 생성하지도 않으므로, 규제 기관의 설명 가능성 요구 사항을 충족할 수 없습니다.
SageMaker Clarify는 Responsible AI를 위해 목적에 맞게 구축되었습니다. 인구통계학적 그룹과 같은 민감 속성 전반의 편향을 평가할 수 있고, SHAP를 포함한 특성 기여도 방법을 사용하여 설명 가능성 출력을 생성할 수 있습니다. Clarify는 스케줄에 따라 또는 각 모델 업데이트 후 processing job으로 실행할 수 있으며, 감사 준비를 위해 S3에 저장할 수 있는 보고서를 생성합니다. 이는 편향 + 예측별 기여도 요구 사항과 24시간 보고 윈도우에 직접 부합합니다.
Amazon Macie는 Amazon S3에서 민감 데이터(예: PII)를 발견하고 분류하며, 데이터 보안 및 프라이버시 거버넌스에 도움을 줍니다. 은행의 규정 준수 프로그램에는 중요하지만, Macie는 모델 편향 평가, 공정성 지표, 또는 예측 수준의 설명 가능성을 제공하지 않습니다. 이는 “어떤 민감 데이터가 어디에 있는가”를 다루지, “모델이 왜 이 결정을 내렸는가” 또는 “결과가 편향되었는가”를 다루지 않습니다.
Amazon Rekognition은 이미지와 비디오를 분석하는 computer vision 서비스입니다(레이블, 얼굴, 이미지 내 텍스트, custom labels). 여기의 사용 사례는 신청자 텍스트 요약과 구조화된 재무 특성을 사용하는 대출 심사이며, 이미지 분류가 아닙니다. Rekognition 레이블을 추가하는 것은 편향 지표나 SHAP 설명을 생성하지 않으며, 규제 기관이 요구하는 감사 준비가 된 투명성 요구 사항을 충족하지 못합니다.
핵심 개념: 이 문제는 AWS에서 Responsible AI 거버넌스와 모델 설명 가능성—특히 편향 탐지/모니터링과 (예: SHAP) 같은 추론별 설명 가능 아티팩트를 모델 업데이트 후 감사 가능한 형태로 보고하는 것을 테스트합니다. 정답이 맞는 이유: Amazon SageMaker Clarify는 (1) 민감/인구통계학적 그룹 전반의 편향 지표를 계산하고 (2) 모델 예측에 대한 특성 기여도 설명( SHAP 기반 설명 포함)을 생성하도록 설계된 AWS 서비스입니다. 요구 사항은 규제 기관이 요구하는 투명하고 감사 준비가 된 설명, 4개 인구통계학적 그룹 전반의 편향 지표, 그리고 매주 모델 업데이트 후 24시간 이내에 샘플링된 추론의 최소 90%에 대한 예측별 특성 기여도를 포함합니다. Clarify는 학습 전 및 학습 후(그룹 기반 지표 포함) 편향 분석을 지원하고, 특성 기여도를 포함하는 설명 가능성 보고서를 생성할 수 있습니다. 이러한 아티팩트는 (예: Amazon S3에) 저장하여 감사에 활용할 수 있으며, 분석 작업은 주간 모델 업데이트 파이프라인의 일부로 스케줄링/자동화할 수 있습니다. 주요 AWS 기능 및 모범 사례: 각 모델 업데이트 후 SageMaker Clarify processing job을 사용하여 편향 및 설명 가능성 분석을 실행합니다. 민감 속성(4개 인구통계학적 그룹)과 레이블/결과를 구성하여 편향 지표를 계산합니다. 설명 가능성의 경우 SHAP explainer를 활성화하여 샘플링된 추론 데이터셋에 대해 예측별 기여도를 생성(“샘플링된 추론의 90%” 요구 사항 충족)합니다. SageMaker Pipelines 또는 AWS Step Functions로 주간 워크플로를 오케스트레이션하고, SageMaker Model Registry에서 model package 승인 시 트리거하며, 감사 가능성을 위해 버전 관리 및 보존 정책을 적용한 S3에 보고서를 기록합니다. 흔한 오해: 보안/규정 준수 스캐너(Inspector)와 데이터 탐지/분류 도구(Macie)는 거버넌스에 중요하지만, 편향 지표나 SHAP 설명을 생성하지는 않습니다. Rekognition은 표/텍스트 기반 대출 심사 설명 가능성과 관련이 없으며 규제 투명성 요구 사항을 해결하지 못합니다. 시험 팁: “bias metrics”, “demographic groups”, “explainability”, “feature attributions”, “SHAP”를 보면, 시험은 보통 SageMaker Clarify를 가리킵니다. 이를 자동화(Pipelines/Step Functions) 및 내구성 있는 저장소(S3)와 함께 감사 준비가 된 보고 타임라인으로 연결해 생각하세요.
이동 중에도 모든 문제를 풀고 싶으신가요?
Cloud Pass를 무료로 다운로드하세요 — 모의고사, 학습 진도 추적 등을 제공합니다.
한 원격의료 플랫폼이 자연어 질의에 응답하여 AI가 큐레이션한 의학 일러스트 이미지들을 반환하는 가상 진료 어시스턴트를 배포했습니다. 임상 가이드라인과 앱 스토어 정책을 준수하기 위해, 회사는 노골적인 누드, 잔혹한 폭력, 또는 자해가 포함된 이미지가 표시되지 않도록 방지해야 하며, 추론 시점에 해당 카테고리에 대해 moderation label confidence가 90% 이상인 모든 이미지를 차단하고 로깅해야 합니다. 또한 base model을 재학습하지 않고 이를 수행해야 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?
정답입니다. 추론 시점에 moderation 서비스(예: Amazon Rekognition DetectModerationLabels)로 각 이미지를 스캔하면, 누드/폭력/자해 카테고리에 대해 요구된 confidence 임계값(≥90%)을 사용하여 결정론적으로 집행할 수 있습니다. 애플리케이션은 표시 전에 이미지를 차단하거나 블러 처리할 수 있으며, 라벨, confidence, 그리고 결정을 CloudWatch/S3에 로깅하여 감사 가능성을 확보할 수 있습니다. 이는 “재학습 없음” 및 “추론 시점에 차단 및 로깅” 요구 사항을 충족합니다.
오답입니다. 재학습은 안전하지 않은 출력의 확률을 낮출 수는 있지만 노골적인 콘텐츠가 절대 나타나지 않음을 보장하지 못하며, 추론 시점에 90% moderation confidence를 기준으로 차단해야 한다는 요구 사항을 충족하지 못합니다. 또한 “base model을 재학습하지 않고”라는 제약을 위반합니다. 규제 또는 정책 중심 환경에서는 모델을 개선하더라도 런타임 집행이 필요합니다.
오답입니다. held-out test set에 대한 일회성 검증은 출시 전 품질 단계이지 런타임 제어가 아닙니다. generative 시스템은 프롬프트와 컨텍스트에 따라 새로운 출력을 만들 수 있으므로, 출시 전 테스트만으로 지속적인 컴플라이언스를 보장할 수 없습니다. 또한 각 추론 요청에 대해 요구된 임계값 기반 차단 및 로깅을 구현하지 않습니다.
오답입니다. 사용자 피드백을 반영하면 문제를 식별하고 향후 동작을 개선하는 데 도움이 될 수 있지만, 이는 사후적이며 비결정론적입니다. 그 순간에 안전하지 않은 이미지가 표시되는 것을 방지하지 못하고, confidence가 ≥90%일 때 차단을 보장하지도 않습니다. 피드백 메커니즘은 자동화된 추론 시점 moderation 및 거버넌스 로깅을 대체하는 것이 아니라 보완하는 것입니다.
핵심 개념: 이 문제는 기본 모델을 변경하지 않고 generative AI 출력에 대해 추론 시점의 안전 제어와 거버넌스를 테스트합니다. 핵심 패턴은 사용자에게 표시되기 전에 생성/검색된 모든 이미지에 자동화된 content moderation(정책 집행)을 적용하고, 감사/컴플라이언스를 위해 집행 조치를 로깅하는 것입니다. 정답이 맞는 이유: 요구 사항은 명확합니다. 노골적인 누드, 잔혹한 폭력, 또는 자해가 포함된 이미지 중 moderation label confidence가 90% 이상인 것은 차단하고 로깅해야 하며, 이를 추론 시점에 base model 재학습 없이 수행해야 합니다. 선택지 A는 각 이미지 출력에 대해 스캔을 수행하고 임계값(≥90%) 기반으로 차단/블러 및 이벤트 기록을 하는 런타임 “safety filter”를 직접 구현합니다. 이는 이미지가 어떻게 생성되었는지(생성 또는 검색)와 무관하게 안전하지 않은 콘텐츠가 표시되지 않도록 하므로 임상 가이드라인 및 앱 스토어 정책 요구를 충족합니다. 주요 AWS 기능: Amazon Rekognition은 이미지에 대해 DetectModerationLabels를 제공하며, 라벨과 confidence score를 반환하므로 90% 임계값과 비교할 수 있습니다. 이를 추론 경로(예: Lambda/ECS/EKS middleware)에 구현하고 결과를 CloudWatch Logs, S3 또는 데이터베이스에 로깅하여 감사 추적을 만들 수 있습니다. Amazon Bedrock을 사용하는 경우 Guardrails는 런타임에 안전 정책을 집행하는 데 도움이 될 수 있습니다(주로 텍스트에 해당하며, 이미지는 일반적으로 Rekognition 같은 image moderation 또는 Bedrock 호환 moderation 워크플로와 함께 사용). 모범 사례로는 fail-closed 동작(moderation 실패 시 차단), 카테고리별 구성 가능한 임계값, 그리고 거버넌스를 위한 구조화된 로깅(라벨, confidence, 요청 메타데이터)이 포함됩니다. 흔한 오해: 재학습(B)은 위험을 줄일 수는 있지만 런타임 컴플라이언스를 보장할 수 없고 “재학습 없이”라는 제약을 위반합니다. 일회성 검증(C)은 필요할 수 있으나 generative 출력은 변동성이 크고 새로운 프롬프트로 출시 후에도 안전하지 않은 콘텐츠가 생성될 수 있으므로 충분하지 않습니다. 사용자 피드백 루프(D)는 지속적 개선에는 유용하지만 추론 시점에서 즉각적이고 결정론적인 차단을 제공하지 못합니다. 시험 팁: “추론 시점에 차단해야 함”, “confidence 임계값”, “재학습 없음”을 보면 런타임 guardrails/moderation 서비스를 선택하십시오. 이미지의 경우 Amazon Rekognition moderation labels를, foundation model 애플리케이션의 경우 Bedrock guardrails와 로깅/감사를 떠올리십시오. 컴플라이언스 및 거버넌스 요구 사항을 위해 항상 집행 + 관측성(로깅)을 포함하십시오.
한 리테일 마켓플레이스가 foundation model을 사용하여 상품 사진을 200개 카테고리로 분류한다. 출시 전에 팀은 10,000개의 라벨링된 이미지로 구성된 held-out benchmark를 사용해 정확도를 검증하려고 하며, 목표는 top-1 accuracy가 최소 92%이다. 모델의 정확도를 평가하기 위한 가장 적절한 전략은 무엇인가?
compute cost와 runtime은 운영 metric(효율성)이지, 예측 성능 metric(효과성)이 아니다. 이는 예산 수립, scaling, latency/throughput 계획에는 도움이 되지만, 모델이 요구된 92% top-1 accuracy를 충족하는지 확인할 수는 없다. 모델은 저렴하고 빠르지만 부정확할 수도 있고, 비싸고 느리지만 정확할 수도 있다. 이 선택지는 라벨이 있는 ground truth 대비 정답 여부를 평가하지 않는다.
이는 지정된 평가 dataset에서 요구된 metric을 직접 측정하기 때문에 올바른 전략이다. 10,000개의 라벨링된 이미지에 대해 inference를 수행하고, top-1 accuracy(argmax prediction이 true label과 동일)를 계산한 뒤, 결과를 92% 합격 임계값과 비교한다. 이는 multi-class classification에 대한 표준 ML 평가 방식이며, 출시 전 실제 환경에서의 성능을 가장 잘 반영한다.
layer 또는 parameter 수를 세는 것은 모델의 capacity/complexity를 설명할 뿐, 해당 작업에서의 실제 정확도를 의미하지 않는다. parameter 수가 때로는 성능과 상관이 있을 수 있지만, 대표적인 라벨링된 benchmark에서의 경험적 평가를 대체할 수는 없다. 비슷한 크기의 두 모델도 학습 데이터, fine-tuning, preprocessing, domain shift에 따라 정확도가 크게 달라질 수 있다. 이 선택지는 92% 요구사항을 검증하지 못한다.
color fidelity 검사는 image preprocessing pipeline을 검증하는 데(예: 의도치 않은 변환이 없는지 확인) 유용할 수 있지만, 라벨링된 카테고리 대비 분류 정확도를 측정하지는 않는다. 모델은 color-accurate한 이미지를 받아도 여전히 오분류할 수 있다. 요구사항은 라벨링된 benchmark에서의 top-1 accuracy이며, 이는 prediction과 ground truth label을 비교하여 계산해야 한다.
핵심 개념: 이 문제는 라벨이 있는 holdout dataset과 multi-class image classification에 적절한 metric(top-1 accuracy)을 사용한 기본적인 ML 모델 평가를 테스트한다. AWS 관점에서는 Amazon SageMaker에서 모델을 구축했든(학습 job + 평가 job) foundation model의 성능을 benchmark dataset으로 평가하든, 표준 평가 방식과 일치한다. 정답이 맞는 이유: 팀에는 명확한 합격 기준이 있다: 200개 카테고리에 대해 10,000개의 라벨링된 이미지로 구성된 held-out benchmark에서 top-1 accuracy가 최소 92%여야 한다. 가장 적절한 전략은 해당 benchmark set에 대해 inference를 수행하고, top-1 accuracy(모델이 가장 높은 확률로 예측한 class가 ground-truth label과 일치하는 이미지의 비율)를 계산한 뒤, 그 결과를 92% 목표와 비교하는 것이다. 이는 명시된 목표를 직접 측정하며, 출시 전에 generalization performance를 추정하기 위해 올바른 dataset split(held-out)을 사용한다. 주요 AWS 기능 / Best Practices: 실무에서는 benchmark를 Amazon S3에 저장하고, batch inference(예: SageMaker Batch Transform 또는 processing job)를 실행한 다음, 재현 가능한 pipeline(SageMaker Pipelines)에서 metric을 계산한다. 또한 SageMaker Experiments/Model Registry로 metric과 artifact를 추적할 수 있다. 분류의 경우 class imbalance를 탐지하기 위해 보완 metric(confusion matrix, per-class accuracy, macro/micro F1)도 고려할 수 있지만, 이 문제는 top-1 accuracy를 명시적으로 요구한다. 흔한 오해: cost/runtime(A)는 운영에 중요하지만 예측 품질을 검증하지는 않는다. 모델 크기(C)는 성능을 보장하지 않으며, 더 큰 모델도 부정확하거나 miscalibrated될 수 있다. 이미지 color fidelity 검사(D)는 preprocessing/품질 보증과 관련이 있으며, 라벨 대비 분류 정답 여부와는 다르다. Exam Tips: 문제가 (1) 라벨이 있는 holdout set과 (2) 목표 metric 임계값을 제공하면, 정답 접근은 거의 항상 holdout set에서 해당 metric을 계산하고 임계값과 비교하는 것이다. 평가 방법을 비즈니스 요구사항(여기서는 multi-class classification을 위한 top-1 accuracy)에 맞춰라.
미디어 스트리밍 플랫폼이 3개 AWS Regions에 걸쳐 150개의 ML inference containers를 운영하며 분당 25,000건의 요청을 처리하고 있습니다. 이 워크로드에 대해 P95 latency, 5xx error rate, 그리고 GPU/CPU utilization을 중앙에서 추적하고 경고할 수 있는 고도로 확장 가능한 AWS 서비스를 필요로 합니다. 회사는 어떤 AWS 서비스를 사용해야 합니까?
Amazon CloudWatch는 중앙 집중식 운영 모니터링을 위한 올바른 서비스입니다. 대규모로 metrics를 수집하고 저장하며, latency distributions에 대해 P95와 같은 percentile statistics를 지원하고, alarms, dashboards, notifications를 제공합니다. Container Insights와 custom metrics를 사용하면 여러 containers와 여러 Regions 전반에서 CPU/GPU utilization과 5xx error rate 같은 application KPI를 추적할 수 있습니다.
AWS CloudTrail은 auditing, governance, 보안 조사(예: 누가 instance를 시작했는지 또는 IAM policy를 변경했는지)를 위해 AWS API calls 및 events를 기록합니다. P95 latency, HTTP 5xx rates, GPU/CPU utilization 같은 성능 모니터링을 위한 것이 아니며, application SLO에 대한 metric 기반 alarming을 제공하지 않습니다.
AWS Trusted Advisor는 cost optimization, performance, security, fault tolerance, service limits 전반에 걸쳐 주기적인 checks와 권고를 제공합니다. quotas에 근접하거나 리소스가 underutilized된 것 같은 이슈를 표시할 수는 있지만, 실시간 per-request latency percentiles, 5xx error monitoring, 또는 alerting을 포함한 container-level GPU/CPU telemetry를 제공하지 않습니다.
AWS Config는 AWS 리소스의 configuration state 및 changes를 추적하고 compliance rules(예: S3 buckets가 public인지, security groups가 0.0.0.0/0을 허용하는지)에 대해 평가합니다. metrics/observability 서비스가 아니며, P95 latency를 네이티브로 계산하거나 5xx error rates를 모니터링하거나 containers의 runtime GPU/CPU utilization을 추적할 수 없습니다.
핵심 개념: 이 문제는 AWS에서의 observability 및 운영 모니터링을 평가합니다—metrics를 수집하고, 다수의 containers와 Regions 전반에서 집계하며, percentiles(P95)를 생성하고, 임계값 기반 alerting을 구성하는 능력입니다. metrics, logs, dashboards, alarms를 위한 AWS 네이티브 서비스는 Amazon CloudWatch입니다. 정답이 맞는 이유: 플랫폼은 높은 요청량 환경에서 3개 Regions에 분산된 150개의 inference containers 전반에 대해 P95 latency, 5xx error rate, GPU/CPU utilization을 중앙에서 추적하고 alerting해야 합니다. CloudWatch는 높은 cardinality의 time-series metrics를 수집하도록 설계되어 있으며, 분포에 대한 statistics(분위수/percentiles 포함)를 계산하고 alarms를 트리거할 수 있습니다. custom metrics 또는 embedded metric format을 통해 application metrics(latency, HTTP 5xx)를 수집할 수 있고, CloudWatch Agent 및 Container Insights(ECS/EKS)를 통해 infrastructure/container metrics(CPU, memory, GPU)를 수집할 수 있습니다. multi-Region 운영을 위해 CloudWatch는 cross-account 및 cross-Region dashboards를 지원하며, Amazon SNS, OpsCenter 또는 incident tooling을 통해 alarms/notifications를 라우팅할 수 있습니다. 주요 AWS 기능: 1) CloudWatch Metrics + Alarms: P95 latency 및 5xx rate에 대한 alarms를 생성하고, metric math로 error rate(5xx/total)를 계산합니다. 2) Container Insights: container 및 node 단위 CPU/memory/network를 수집하고 EKS/ECS와 통합합니다. 3) GPU monitoring: GPU utilization을 custom metrics로 게시(예: CloudWatch Agent/telegraf/nvidia-smi exporters)하고 임계값에 대해 alarm을 설정합니다. 4) Dashboards 및 cross-Region 가시성: 모든 Regions를 보는 중앙 dashboards; 필요 시 cross-account observability로 중앙화합니다. 5) Anomaly Detection 및 Logs Insights(선택): latency regression을 탐지하고 상관관계를 위해 logs를 쿼리합니다. 흔한 오해: CloudTrail은 종종 monitoring과 혼동되지만, 성능 metrics가 아니라 API activity(누가 무엇을 했는지)를 기록합니다. Trusted Advisor는 best-practice checks 및 cost/security 권고를 제공하지만, 실시간 P95 latency 추적을 제공하지 않습니다. AWS Config는 리소스 configuration changes 및 compliance를 추적하며, runtime latency나 GPU utilization을 다루지 않습니다. 시험 팁: “track metrics”, “percentiles (P95)”, “alerting”, “dashboards”, “operational monitoring”이 보이면 기본적으로 CloudWatch를 선택합니다. audit/API history는 CloudTrail, configuration compliance/drift는 Config, account-level recommendations는 Trusted Advisor를 선택합니다. containerized ML inference에서는 Container Insights + model latency 및 GPU utilization을 위한 custom metrics가 흔한 패턴임을 기억하세요.
한 healthtech startup이 3개 AWS Regions(us-east-1, eu-west-1, ap-southeast-1)에 걸쳐 다국어 증상 확인 chatbot과 제품 설명 생성기를 출시해야 합니다. 여러 provider의 최소 4가지 서로 다른 foundation models를 실험해야 하며, 내장 guardrails 및 retrieval-augmented generation 통합을 갖춘 serverless pay-per-request inference가 필요합니다. 또한 model hosting을 관리하지 않고 하루 500건에서 50,000건 요청까지 확장해야 합니다—이러한 generative AI 애플리케이션을 구축하고 확장하기 위해 foundation models에 대한 managed access를 제공하는 AWS service는 무엇입니까?
Amazon Q Developer는 software development 워크플로우(code generation, 설명, debugging, IDE 통합, AWS console 지원)에 초점을 맞춘 generative AI assistant입니다. 여러 third-party foundation models에 접근하여 커스텀 다국어 chatbot이나 콘텐츠 생성기를 구축하기 위한 범용 managed service로 설계된 것이 아닙니다. 또한 구성 가능한 guardrails 및 RAG knowledge base 통합을 갖춘 serverless FM inference를 위한 주요 AWS service도 아닙니다.
Amazon Bedrock이 정답인 이유는, 통합 API를 통해 여러 provider의 다양한 foundation models에 대한 fully managed, serverless access를 제공하기 때문입니다. pay-per-request inference를 지원하고 자동으로 확장되며, model infrastructure를 호스팅하거나 관리할 필요가 없습니다. 또한 Bedrock에는 안전 제어를 위한 Amazon Bedrock Guardrails와 retrieval-augmented generation을 구현하기 위한 Knowledge Bases for Bedrock이 포함되어 있어, chatbot 및 제품 설명 생성 요구사항과 일치합니다.
Amazon Kendra는 connectors와 relevance tuning을 사용해 여러 data sources의 정보를 인덱싱하고 검색하는 enterprise search service입니다. RAG 아키텍처의 일부로(응답을 근거화하기 위해 문서를 검색) 사용할 수는 있지만, 텍스트 생성을 위한 여러 foundation models에 대한 managed access를 제공하지는 않습니다. Kendra는 search와 retrieval을 해결하며, 내장 guardrails가 있는 serverless multi-model FM inference를 제공하지 않습니다.
Amazon Comprehend는 entity recognition, key phrase extraction, sentiment analysis, topic modeling, PII detection 같은 작업을 위한 managed natural language processing service입니다. 이는 foundation-model platform이 아니며 chatbot이나 제품 설명 생성기를 구축하기 위한 generative capabilities를 제공하지 않습니다. Comprehend는 솔루션을 보완할 수는 있지만(예: PII detection), 여러 provider의 FMs에 대한 managed access 및 RAG/guardrails 요구사항을 충족하지 못합니다.
핵심 개념: 이 문제는 model infrastructure를 프로비저닝하거나 운영하지 않고 foundation models(FMs)을 사용해 generative AI 애플리케이션을 구축하기 위한 AWS managed services 지식을 평가합니다. 핵심 요구사항은 “foundation models에 대한 managed access”이며, serverless, pay-per-request inference, 다중 모델 실험, 내장 safety 및 RAG 통합이 포함됩니다. 정답이 맞는 이유: Amazon Bedrock은 여러 provider의 다양한 foundation models에 API 기반으로 접근할 수 있게 해주는 AWS의 fully managed service입니다(예: Anthropic, Meta, Mistral, Amazon Titan, Cohere, Stability AI—제공 여부는 Region 및 시점에 따라 달라질 수 있음). 이는 여러 FMs를 빠르게 실험하고, generative AI 앱(chatbots, 콘텐츠 생성)을 배포하며, model hosting을 관리하지 않고 사용량을 확장해야 하는 시나리오에 정확히 부합합니다. Bedrock은 serverless이며 on-demand throughput을 지원하므로 하루 500~50,000 requests로 확장해야 한다는 요구사항과 일치합니다. 주요 AWS 기능: Bedrock은 (1) 일관된 API를 통해 provider 간 model 선택, (2) on-demand 및(필요 시) provisioned throughput 옵션, (3) 안전 정책을 적용하는 데 도움이 되는 Amazon Bedrock Guardrails를 통한 내장 guardrails(예: 주제 제한, PII 처리, toxicity filters), (4) Knowledge Bases for Amazon Bedrock을 통한 retrieval-augmented generation 지원을 제공하며, 이는 vector stores(예: Amazon OpenSearch Service 등)와 통합되어 enterprise data에 근거한 응답을 생성할 수 있습니다. 또한 healthtech 맥락에서 중요한 governance 및 auditing을 위해 AWS security primitives(IAM, KMS, CloudWatch, CloudTrail)와도 통합됩니다. 흔한 오해: Amazon Kendra는 “search + RAG”와 연관되어 자주 언급되지만, 이는 enterprise search service이지 managed multi-FM inference platform이 아닙니다. Amazon Comprehend는 generative text 생성이 아니라 classic NLP(entity extraction, sentiment, PII detection)를 위한 서비스입니다. Amazon Q Developer는 software development 작업을 위한 특화 assistant로, 다국어 증상 확인 및 제품 생성용의 범용 FM hosting/access 계층이 아닙니다. 시험 팁: “multiple foundation models”, “serverless pay-per-request inference”, “no model hosting”, “guardrails”, “RAG integrations”를 보면 시험은 Amazon Bedrock을 가리키는 것입니다. Bedrock(FM access + genAI 앱 구축)과 SageMaker(custom ML training/hosting), 그리고 search/NLP 포인트 서비스(Kendra/Comprehend)를 구분하세요. 또한 multi-Region 배포는 애플리케이션 아키텍처 선택이며, Bedrock은 지원되는 Regions에서 managed endpoints를 제공하고, 지연 시간과 복원력을 위해 앱 스택을 Region별로 배포합니다.
Amazon Bedrock에서 호스팅되는 금융 자문 chatbot이 temperature=0.9 및 top_p=0.95로 호출될 때 500개 프롬프트에 대한 내부 평가에서 12%의 hallucination 비율을 보이며, 팀은 재학습하거나 foundation model을 변경하지 않고 24시간 내에 hallucination을 5% 미만으로 줄여야 합니다—무엇을 해야 합니까?
오답. Agents for Amazon Bedrock는 추론 시점에서 다단계 작업(tool 사용, function calling, retrieval, workflow 실행)을 오케스트레이션하는 데 사용됩니다. 이는 “모델의 학습 프로세스를 감독”하지 않으며, foundation model이 학습된 방식을 바꿔 hallucination을 직접 줄이지도 않습니다. agents가 도구나 knowledge bases로 응답을 grounding하여 사실성을 개선할 수는 있지만, 이 선택지의 전제인 학습 감독은 틀렸습니다.
오답. hallucination을 유발하는 학습 예제를 제거하기 위한 데이터 사전 처리는 모델의 학습 데이터셋에 접근하여 수정한 뒤 재학습 또는 fine-tuning을 수행할 수 있음을 전제합니다. 문제는 재학습을 명시적으로 금지하고 24시간 내 개선을 요구합니다. Bedrock의 managed foundation models에서는 고객이 원본 학습 코퍼스를 편집할 수 없는 경우가 일반적입니다. 이 접근은 제시된 제약에서 실행 불가능합니다.
정답. temperature를 낮추면 token sampling의 무작위성이 줄어 출력이 더 결정적이 되며, 특히 금융 자문처럼 고위험 도메인에서 창의적 표현이 조작된 사실로 이어질 수 있는 경우 hallucination을 일반적으로 줄입니다. 이는 Bedrock 호출 파라미터(temperature/top_p)를 사용하는 즉각적인 추론 시점 변경이며, 동일한 500개 프롬프트 평가 세트로 빠르게 검증하여 hallucination이 5% 미만으로 떨어졌는지 확인할 수 있습니다.
오답. 다른 foundation model로 전환하면 hallucination이 줄어들 수 있지만, 문제는 팀이 foundation model을 변경할 수 없다고 명시합니다. 설령 허용되더라도 모델 전환은 재검증, 프롬프트 조정, 회귀 테스트가 필요한 경우가 많아 24시간 내 가장 빠른 준수 해결책이 되기 어렵습니다. 최선의 답은 제약을 준수하면서 추론 시점 제어를 사용하는 것입니다.
핵심 개념: 이 문제는 Amazon Bedrock의 foundation model에 대한 추론 시점 제어—특히 decoding 파라미터(temperature 및 top_p)가 출력 변동성과 hallucination 위험에 어떤 영향을 미치는지—를 평가합니다. 재학습, fine-tune, 또는 모델 변경이 불가능할 때 가장 빠른 레버는 생성 구성(generation configuration)입니다. 정답이 맞는 이유: temperature 0.9와 top_p=0.95는 token 선택에서 무작위성을 높여 다양하고 창의적인 출력을 유도합니다. 금융 자문 chatbot에서는 이러한 창의성이 종종 조작된 사실, 출처, 또는 과도하게 확신하는 잘못된 진술(hallucinations)로 나타납니다. temperature를 낮추면(예: ~0.2) sampling이 더 결정적이 되어 모델이 더 높은 확률의 token을 선택하고 더 보수적인 완성을 생성하도록 유도합니다. 이는 일반적으로 hallucination을 빠르게 줄이며, Bedrock 호출 파라미터를 변경하는 것만으로 즉시(수 분 내) 적용할 수 있어 24시간 제약을 충족합니다. 주요 AWS 기능: Amazon Bedrock runtime APIs는 temperature 및 top_p(nucleus sampling) 같은 추론 파라미터를 요청별(per-request) 또는 기본값(default)으로 구성할 수 있습니다. 팀은 동일한 평가 프롬프트에 대해 파라미터 세트를 A/B 테스트하여 hallucination 감소를 정량화할 수 있습니다. 프로덕션에서는 이러한 설정을 애플리케이션 계층 또는 오케스트레이션 구성 요소(예: Bedrock invocation wrapper)를 통해 일관되게 적용할 수 있으며, 기반 foundation model을 수정할 필요가 없습니다. 흔한 오해: “hallucinations는 더 나은 학습 데이터가 필요하다” 또는 “다른 모델이 필요하다”라고 생각하기 쉽지만, 문제는 재학습과 모델 변경을 명시적으로 금지합니다. 또 다른 오해는 Agents for Amazon Bedrock가 “학습을 감독한다”는 것인데, agents는 추론 시점에서 tool 사용, retrieval, action 실행을 오케스트레이션할 뿐 모델 학습을 수행하지 않습니다. retrieval-augmented generation (RAG) 및 guardrails도 hallucination을 줄일 수 있지만, 여기의 선택지는 가장 빠르고 확실한 변경인 decoding 무작위성 조정에 초점을 둡니다. 시험 팁: 제약 조건이 “재학습/fine-tuning 불가” 및 “빠르게 해결해야 함”이라면, 추론 시점 완화책을 찾으세요: temperature/top_p 낮추기, retrieval로 grounding 추가, guardrails 추가, citations 요구. 높은 temperature/top_p는 창의성을 증가시키고, 낮은 temperature는 결정성을 증가시키며—금융, 의료, 법률 같은 규제 도메인에 선호됩니다. 완화책을 제약과 타임라인에 매핑하세요: 파라미터 튜닝이 가장 빠르고 위험이 낮은 변경입니다.
학습 기간: 1 month
I found this practice questions and explanations very aligned with actual certification exam.
학습 기간: 2 weeks
문제 좋네요. 비슷한 유형들이 꽤나 많았어요
학습 기간: 1 month
실무에서 ai 서비스 개발 중이어서 문제 풀 때 쉬웠고, 시험도 무난하게 합격했어요
학습 기간: 2 weeks
실제 시험 문제 절반이 비슷했고, 나머지는 새로보는 유형이었어요
학습 기간: 1 month
I learned about this certification only with these questions and passed it after learning for 2 days

Associate

Specialty

Practitioner

Associate

Associate

Professional

Associate

Specialty

Professional
이동 중에도 모든 문제를 풀고 싶으신가요?
무료 앱 받기
Cloud Pass를 무료로 다운로드하세요 — 모의고사, 학습 진도 추적 등을 제공합니다.