
65개 문제와 90분 시간 제한으로 실제 시험을 시뮬레이션하세요. AI 검증 답안과 상세 해설로 학습하세요.
AI 기반
모든 답안은 3개의 최고 AI 모델로 교차 검증하여 최고의 정확도를 보장합니다. 선택지별 상세 해설과 심층 문제 분석을 제공합니다.
도시 병원 네트워크의 공중보건 분석 팀은 대규모 언어 모델(LLMs)을 사용해 20~50페이지 분량의 임상 사고 보고서(PDF)를 읽고 안전성 검토를 위한 핵심 요약을 생성하는 AI 애플리케이션을 구축하려고 합니다. 시스템은 요청당 5초 이내에 상위 주요 발견사항의 간결한 요약(≤200단어)을 반환해야 하며, 최대 10명의 동시 검토자를 지원해야 합니다. 어떤 솔루션이 이러한 요구사항을 충족합니까?
NER는 entity(예: 약물명, 용량, 환자 식별자)를 식별하고 라벨링하는 전형적인 NLP 추출 작업입니다. 임상 텍스트를 구조화하고 후속 분석을 지원하는 데는 유용하지만, “상위 주요 발견사항”에 대한 간결한 서술 또는 bullet 요약을 생성하지는 않습니다. 또한 5초 이내에 ≤200단어의 takeaway 요약을 반환해야 한다는 요구사항을 본질적으로 충족하지도 않습니다.
recommendation engine은 유사하거나 관련된 사고 보고서를 제안하여 검토자 워크플로와 탐색을 개선할 수 있습니다. 그러나 단일 20~50페이지 PDF를 읽고 핵심 요약을 생성하지는 않습니다. 검색과 결합하더라도, 지정된 단어 수 및 지연 시간 제약 내에서 보고서의 상위 주요 발견사항에 대한 간결한 요약을 생성해야 한다는 핵심 기능 요구사항을 충족하지 못합니다.
Option C가 정답인 이유는 주요 요구 사항이 긴 clinical incident report를 읽고 핵심 findings에 대한 간결한 summary를 생성하는 것이기 때문입니다. 이는 대표적인 LLM summarization 사용 사례입니다. large language model은 비정형 text를 이해하고 일관성 있게 압축된 출력을 생성하도록 설계되어 있기 때문입니다. 또한 이 옵션은 응답을 200 words 이내로 유지하고 5초 이내에 결과를 반환해야 한다는 요구 사항도 명시적으로 포함하고 있어, 제시된 기능 및 성능 제약 조건과 일치합니다. 다른 어떤 옵션도 summary를 생성하지 않으므로, 비즈니스 요구를 직접 충족하는 선택지는 C뿐입니다.
translation 시스템은 텍스트를 언어 간 변환합니다. 프롬프트는 다국어 지원을 요구하지 않고 임상 사고 보고서의 요약을 요구합니다. 번역은 다른 병원 맥락에서는 가치가 있을 수 있지만, “상위 주요 발견사항” 요약을 생성하지 않으며 핵심 요구사항을 해결하지 못합니다. 따라서 이 사용 사례에 가장 적합한 솔루션이 아닙니다.
핵심 개념: 이 문제는 명시적인 기능 및 비기능 요구 사항(출력 길이, 지연 시간, 동시성)을 바탕으로 올바른 generative AI 애플리케이션 패턴, 즉 LLM 기반 document summarization을 선택하는지를 평가합니다. AWS 관점에서 이는 일반적으로 foundation model(예: Amazon Bedrock 경유)을 사용하여 긴 문서에 대해 summarization을 수행하는 방식에 해당합니다. 정답인 이유: 팀은 20~50페이지 분량의 PDF를 읽고 요청당 5초 이내에 핵심 findings의 간결한 summary(≤200 words)를 생성하며, 최대 10명의 동시 reviewer를 지원하는 AI 애플리케이션이 필요합니다. Option C는 정확히 이 작업을 수행하는 LLM 기반 summarization assistant를 설명하며, 제약 조건(제한된 summary 길이와 낮은 지연 시간)에도 부합합니다. 다른 옵션들은 서로 다른 ML 작업(NER, recommendations, translation)을 설명하며, 핵심 findings에 대한 간결한 narrative/bulleted summary를 생성해야 한다는 주요 요구 사항을 충족하지 못합니다. 주요 AWS 기능: 일반적인 AWS 구현에서는 PDF를 저장하기 위해 Amazon S3를 사용하고, text extraction(보통 PDF의 경우 Amazon Textract)을 통해 문서를 text로 변환한 뒤, summarization을 위해 LLM(예: 적절한 model을 사용하는 Amazon Bedrock)을 사용합니다. 5초 SLA와 10명의 동시 사용자를 충족하려면 다음에 중점을 둡니다: - ≤200 words를 강제하기 위한 prompt 설계(명시적 지시 + max tokens). - 낮은 지연 시간의 inference(실시간 요청에 적합한 model/throughput 구성 선택). - 반복 접근에 대한 summary caching(예: DynamoDB/ElastiCache) 및 가능할 경우 새로 업로드된 report에 대한 비동기 pre-summarization. - API 계층에서의 동시성 제어 및 scaling(API Gateway + Lambda/ECS)과 함께 model endpoint가 병렬 요청을 처리할 수 있도록 보장. 흔한 오해: NER(Option A)는 clinical report에 drugs 및 dosages 같은 entity가 포함되어 있기 때문에 관련 있어 보일 수 있지만, entity tagging은 일관된 “top findings” summary를 생성하지 않습니다. Recommendations(Option B)는 summarization이 아니라 discovery를 돕습니다. Translation(Option D)은 multilingual output이 필요한 경우가 아니라면 관련이 없습니다. 시험 팁: 시험 문제에서는 동사와 출력을 기준으로 판단하세요: “produce key takeaways/summary”는 generative AI summarization을 강하게 시사합니다. 그런 다음 비기능 요구 사항(지연 시간, 동시성, 출력 길이)에 맞는지 검증하세요. entity extraction, search, recommendations 같은 인접한 analytics 작업이 아니라, 최종 사용자에게 전달되는 결과물과 일치하는 옵션을 선택해야 합니다.
이동 중에도 모든 문제를 풀고 싶으신가요?
Cloud Pass를 무료로 다운로드하세요 — 모의고사, 학습 진도 추적 등을 제공합니다.
학습 기간: 1 month
I found this practice questions and explanations very aligned with actual certification exam.
학습 기간: 2 weeks
문제 좋네요. 비슷한 유형들이 꽤나 많았어요
학습 기간: 1 month
실무에서 ai 서비스 개발 중이어서 문제 풀 때 쉬웠고, 시험도 무난하게 합격했어요
학습 기간: 2 weeks
실제 시험 문제 절반이 비슷했고, 나머지는 새로보는 유형이었어요
학습 기간: 1 month
I learned about this certification only with these questions and passed it after learning for 2 days


이동 중에도 모든 문제를 풀고 싶으신가요?
무료 앱 받기
Cloud Pass를 무료로 다운로드하세요 — 모의고사, 학습 진도 추적 등을 제공합니다.
한 IT 운영 팀이 8~12개의 연속된 서비스 로그와 5개의 메트릭 이상 징후를 분석하여 인시던트를 진단하기 위해 LLM을 사용하며, 최종 근본 원인과 개선 조치를 정당화하는 번호가 매겨진 단계별 추론 트레이스와 중간 계산(예: latency delta 및 error-rate ratio)을 모델이 생성해야 한다고 요구한다. 이러한 요구 사항을 가장 잘 충족하는 prompt engineering 기법은 무엇인가?
Few-shot prompting은 원하는 패턴을 모델에 가르치기 위해 소수의 예시(input-output 쌍)를 제공합니다. 인시던트 분석 형식을 일관되게 만들고 delta/ratio 계산 방법을 시연함으로써 정확도를 높일 수는 있습니다. 그러나 요구 사항은 중간 계산을 포함한 명시적 단계별 추론 트레이스를 생성하는 것이며, 이는 단순히 예시를 제공하는 것보다 chain-of-thought prompting이 더 직접적으로 해결합니다.
Zero-shot prompting은 예시 없이 지시만에 의존합니다. 번호가 매겨진 단계와 계산을 요청할 수는 있지만, 연속 로그와 메트릭 전반의 복잡한 다중 증거 추론에서는 zero-shot이 일반적으로 신뢰성이 떨어집니다. 구조와 완전성의 변동성이 커지는 경우가 많아, 중간 계산과 정당화된 근본 원인/개선 조치 트레이스를 일관되게 포함해야 할 때는 더 약한 선택입니다.
Directional stimulus prompting은 특정 신호, 제약, 힌트(예: “deployment 이후 latency spike에 집중하라”, “5xx error를 우선하라”)를 강조하여 모델을 유도합니다. 이는 관련성을 높이고 노이즈가 많은 로그에서 산만함을 줄일 수 있지만, 중간 계산을 포함한 전체 추론 체인을 드러내도록 본질적으로 만들지는 않습니다. 이는 명시적 단계별 추론을 끌어내기보다는 주의(attention)를 안내하는 데 더 가깝습니다.
Chain-of-thought prompting은 모델이 최종 답을 내기 전에 중간 단계를 말로 풀어내도록 하여 다단계 추론을 유도하는 데 목적이 있습니다. 이는 최종 근본 원인과 개선 조치를 정당화하는 중간 계산(latency delta, error-rate ratio)을 포함한 번호가 매겨진 추론 트레이스 요구 사항과 직접적으로 일치합니다. 여러 로그와 메트릭 이상 징후에 걸친 투명하고 구조화된 추론이 필요할 때 가장 적합합니다.
핵심 개념: 이 문제는 generative AI/LLM을 위한 prompt engineering 기법, 특히 모델로부터 중간 계산을 포함한 구조화된 다단계 추론을 어떻게 유도하는지를 평가합니다. AWS 시험 맥락에서는 Amazon Bedrock 또는 Amazon SageMaker JumpStart 사용 패턴과 함께 자주 등장하지만, 핵심은 prompting 방법입니다. 정답이 맞는 이유: 요구 사항이 명확합니다. 팀은 최종 진단과 개선 조치를 정당화하는 번호가 매겨진 단계별 추론 트레이스와 중간 계산(latency delta, error-rate ratio)을 필요로 합니다. Chain-of-thought prompting은 모델이 최종 답만 내놓는 것이 아니라 중간 추론 단계를 산출하도록(즉, “작업 과정을 보여주도록”) 유도하기 위해 설계되었습니다. 구조화된 추론 트레이스(예: “step by step로 생각하라; 계산을 포함하라; 번호가 매겨진 단계로 출력하라”)를 요청하면, 8~12개의 연속 로그와 5개의 메트릭 이상 징후처럼 여러 증거 항목 전반에서 일관성을 높이고, 모델이 근거 없이 결론으로 점프할 가능성을 줄이기 위해 chain-of-thought prompting을 적용하는 것입니다. 주요 AWS 기능 / 모범 사례: AWS(예: Amazon Bedrock)에서 실제로는 chain-of-thought 스타일 지시와 출력 형식 제약(번호가 매겨진 단계, 계산 섹션, 최종 근본 원인, 개선 조치)을 결합합니다. 로그/메트릭 컨텍스트를 제공하기 위해 retrieval(RAG)과 함께 사용할 수도 있지만, 이 문제는 중간 추론을 산출하게 하는 prompting 기법이 무엇인지에 초점을 둡니다. 운영 환경에서는 추가로 guardrails(예: “각 단계가 어떤 로그 라인/메트릭으로 뒷받침되는지 인용하라”)를 적용하고, 계산은 외부에서 검증하는 경우가 많습니다. 흔한 오해: Few-shot prompting은 예시를 제공하여 작업 준수도를 높일 수 있지만, 본질적으로 모델이 중간 추론을 드러내도록 요구하는 기법은 아닙니다. Zero-shot은 상세한 트레이스를 안정적으로 생성할 가능성이 가장 낮습니다. Directional stimulus prompting은 특정 증거에 주의를 기울이도록 유도할 수 있지만, 계산을 포함한 명시적 다단계 추론을 끌어내는 정석적인 기법은 아닙니다. 시험 팁: 문제가 “step-by-step reasoning”, “show your work”, “intermediate steps”, “multi-hop reasoning”을 요구하면, 시험 정답은 보통 chain-of-thought prompting입니다. 반대로 “예시로부터 학습”을 강조하면 few-shot을 선택하세요. “지시만으로 수행”을 강조하면 zero-shot을 선택하세요. “특정 단서나 제약에 집중”을 강조하면 directional stimulus가 해당될 수 있습니다.
한 리테일 분석 팀이 Amazon OpenSearch Service에 2,000만 개의 768차원 텍스트 임베딩을 저장하는 retrieval-augmented generation (RAG) 프로토타입을 구축하고 있으며, 100 ms 이내에 가장 유사한 벡터 상위 20개를 검색해야 합니다. 이러한 유형의 벡터 데이터베이스 애플리케이션을 가능하게 하는 OpenSearch 기능은 구체적으로 무엇입니까?
Amazon S3와의 네이티브 통합은 스냅샷, 백업, 데이터 라이프사이클 패턴(예: 인덱스 스냅샷을 S3에 저장)에 유용합니다. 그러나 S3는 객체 스토리지이며 RAG에 필요한 저지연 고차원 유사도 검색을 제공하지 않습니다. S3 통합은 내구성과 비용 관리를 돕지만, 100 ms 이내에 임베딩의 k-NN 검색을 가능하게 하지는 않습니다.
지리공간 인덱싱 및 쿼리는 반경 내 포인트 찾기, 바운딩 박스 검색, geo-distance 정렬과 같은 위치 기반 사용 사례를 지원합니다. 이는 특화된 인덱싱 기능이지만 768차원 임베딩 벡터에 대한 시맨틱 유사도와는 관련이 없습니다. 지리공간 기능은 RAG 워크로드에서 상위 20개 최근접 임베딩을 검색하는 데 도움이 되지 않습니다.
확장 가능한 벡터 인덱스 관리 및 k-nearest neighbor (k-NN) 검색은 벡터 데이터베이스 애플리케이션을 가능하게 하는 구체적인 OpenSearch 기능입니다. 이는 벡터 필드에 임베딩을 저장하고, 대규모에서 근사 최근접 이웃 검색(top K 가장 유사한 벡터)을 효율적으로 수행할 수 있게 하여, RAG 시스템에서 흔한 엄격한 지연 시간 요구사항(예: 수천만 개 벡터에서 상위 20개 매칭 검색)을 충족합니다.
스트리밍 데이터에 대한 실시간 분석은 지속적으로 유입되는 이벤트(로그, 메트릭, 클릭스트림)를 낮은 인덱싱 지연으로 수집하고 쿼리하는 것을 의미합니다. OpenSearch가 준실시간 분석에 흔히 사용되기는 하지만, 스트리밍 지원은 여기의 핵심 요구사항인 고차원 임베딩에 대한 빠른 유사도 검색을 해결하지 못합니다. 벡터 검색 성능은 스트리밍 분석이 아니라 k-NN/ANN 인덱싱에 달려 있습니다.
핵심 개념: 이 문제는 retrieval-augmented generation (RAG)에서 사용되는 Amazon OpenSearch Service의 벡터 데이터베이스 기능, 즉 고차원 임베딩을 저장하고 대규모로 빠른 근사 유사도 검색(k-nearest neighbor)을 수행하는 능력을 평가합니다. 정답인 이유: RAG 시스템은 쿼리 임베딩에 대해 의미적으로 가장 유사한 문서를 검색해야 합니다. 2,000만 개의 768차원 벡터와 엄격한 지연 시간 목표(100 ms 이내 상위 20개)를 고려할 때, 핵심 OpenSearch 기능은 확장 가능한 벡터 인덱싱과 k-NN 검색입니다. OpenSearch는 벡터 필드와 k-NN/ANN (approximate nearest neighbor) 검색을 제공하므로 2,000만 개 임베딩을 모두 스캔하지 않고도 가장 가까운 벡터를 효율적으로 찾을 수 있습니다. 이것이 바로 OpenSearch가 시맨틱 검색과 RAG를 위한 벡터 데이터베이스로 동작하게 하는 기능입니다. 주요 AWS 기능: OpenSearch는 k-NN 기능(일반적으로 HNSW와 같은 ANN 알고리즘 기반)을 통해 벡터 검색을 지원하며, 수평 확장성을 위해 샤드와 노드 전반에서 벡터 인덱스를 관리합니다. 일반적으로 임베딩을 벡터 필드에 저장하고, ANN 인덱스 유형/파라미터를 선택한 뒤, k-NN로 쿼리하여 상위 K 결과(여기서는 K=20)를 반환합니다. 성능은 인덱스 파라미터(예: 그래프 구성/ef 설정), 샤드 크기, 인스턴스 유형(메모리/CPU), 그리고 적용 가능한 경우 후보 집합을 좁히기 위한 필터 사용에 따라 달라집니다. 이는 Well-Architected의 성능 효율성 원칙(무차별 스캔이 아니라 데이터 구조 최적화 및 scale-out)에 부합합니다. 흔한 오해: S3 통합(A)은 스냅샷 저장 또는 데이터 수집과 관련된 것이지, 저지연 벡터 유사도 검색이 아닙니다. 지리공간 인덱싱(B)은 위치 기반 쿼리에 특화된 기능으로 임베딩 유사도와는 무관합니다. 스트리밍 분석(D)은 준실시간 로그/이벤트 분석과 관련되며 ANN 벡터 검색과는 다릅니다. 시험 팁: “embeddings”, “top K similar”, “vector database”, “RAG”를 보면 “vector search”, “k-NN”, “ANN”을 찾으십시오. OpenSearch/Elasticsearch 계열 서비스에서 이를 가능하게 하는 기능은 일반 검색, 스토리지 통합, 스트리밍 기능이 아니라 k-NN/벡터 인덱스입니다. 또한 수천만 개 벡터에서 엄격한 지연 시간을 요구한다는 것은 정확한 brute-force 유사도 계산이 아니라 approximate nearest neighbor 인덱싱을 강하게 시사합니다.
한 e-commerce 마켓플레이스가 Amazon Bedrock에서 managed large language model을 사용해 제품 Q&A assistant를 배포할 계획이다. 2일간의 파일럿에서 각 요청은 평균 800 prompt tokens와 200 completion tokens를 사용하며, temperature는 0.7로 설정되어 있고, 모델에 대해 custom training 또는 fine-tuning은 수행하지 않는다. 시스템이 10,000개의 요청을 처리할 때, 일일 inference 요금을 주로 좌우하는 요인은 무엇인가?
정답. Amazon Bedrock의 on-demand inference 요금은 주로 token 사용량, 즉 input(prompt) tokens와 output(completion) tokens의 합에 기반한다. 하루 10,000건의 요청과 요청당 약 1,000 tokens라면, 일일 총 tokens가 비용을 지배한다. 이는 일반적인 Bedrock 모델 pricing이 input tokens와 output tokens에 대해 각각 별도의 요율을 명시하는 방식과 일치한다.
오답. Temperature는 생성의 무작위성/창의성을 제어하여 결정성에 영향을 주고 때로는 간접적으로 응답 길이에 영향을 줄 수 있다. 그러나 Bedrock은 “temperature 설정값”으로 과금하지 않는다. 과금은 사용량(주로 tokens)으로 측정된다. Temperature가 출력 스타일을 바꾸더라도, 요금은 생성 및 처리된 tokens 수에 의해 좌우된다.
오답. 시나리오에서 custom training 또는 fine-tuning을 수행하지 않는다고 명시한다. Training 데이터 볼륨은 모델 customization(fine-tuning) 또는 별도의 training 워크플로가 포함될 때만 중요하다. Bedrock에서 managed FM inference의 경우, provider의 원래 pre-training 데이터가 아니라 inference 사용량(tokens)에 대해 비용을 지불한다.
오답. 여기서는 고객이 모델을 training하지 않으므로 training 시간은 관련이 없다. Bedrock은 고객이 보통 inference API를 소비하는 managed foundation models를 제공한다. Training duration 기반 요금은 Amazon SageMaker training 같은 서비스의 training jobs 또는 특정 customization 워크플로에 적용되며, 표준 Bedrock inference에는 해당되지 않는다.
핵심 개념: Amazon Bedrock의 managed foundation models에 대한 inference pricing은 주로 사용량 기반이다. 대부분의 Bedrock 모델에서 on-demand inference 요금은 처리된 tokens 수(입력/prompt tokens + 출력/completion tokens)에 의해 결정된다. 이 문제는 generative AI inference가 어떻게 측정되고 과금되는지에 대한 이해를 평가한다. 정답이 맞는 이유: 하루 10,000건의 요청과 요청당 평균 800 prompt tokens + 200 completion tokens라면, 요청당 약 1,000 tokens를 소비하며 하루 총 약 10,000,000 tokens를 소비한다. Bedrock의 inference 비용은 서비스가 모델에 보내는 텍스트 양과 모델이 생성하는 텍스트 양을 측정하기 때문에 이 token 볼륨에 따라 증가한다. fine-tuning이나 custom training을 수행하지 않으므로 training 관련 요금은 고려할 필요가 없다. 따라서 지배적인 비용 요인은 요청당 소비되는 tokens 수이다. 주요 AWS 기능: Bedrock은 여러 foundation models에 대한 액세스를 제공하며, pricing은 일반적으로 1,000(또는 1 million) input tokens당 요금과 1,000(또는 1 million) output tokens당 요금으로 표시되고, 종종 서로 다른 요율이 적용된다. 이는 prompt optimization(더 짧은 prompts), 응답 길이 제한(max tokens), caching/retrieval 전략(RAG로 불필요한 context 감소), 그리고 지원되는 경우 request batching을 통해 비용을 제어하도록 유도한다. Temperature는 무작위성에 영향을 주는 inference parameter이지만, 과금 단위를 바꾸지는 않는다. 흔한 오해: 많은 사람들이 “temperature” 또는 다른 generation 설정이 비용을 직접 바꾼다고 생각한다. Temperature가 출력 길이나 재시도에 간접적으로 영향을 줄 수는 있지만(그 결과 tokens가 늘어날 수 있음), 과금 메커니즘 자체는 여전히 token 기반이다. 또 다른 오해는 training 시간이나 training 데이터가 inference 요금에 영향을 준다는 것인데, 이는 실제로 모델을 training하거나 fine-tuning할 때만 해당된다(그리고 Bedrock의 managed FMs는 보통 고객이 직접 training을 관리하지 않고 사용한다). 시험 팁: Bedrock 및 대부분의 LLM 서비스에서 inference 비용은 보통 입력 + 출력 tokens에 비례한다는 점을 기억하라. 요청 수와 평균 token 수로부터 일/월간 token 총량을 항상 대략 계산하라. Inference pricing과 customization(fine-tuning) pricing을 구분하고, 문제에서 compute time 또는 provisioned throughput 기반 pricing을 명시하지 않는 한 모델 hyperparameters(temperature, top-p)를 과금 차원과 혼동하지 마라.
한 리테일 마켓플레이스가 foundation model을 사용하여 상품 사진을 200개 카테고리로 분류한다. 출시 전에 팀은 10,000개의 라벨링된 이미지로 구성된 held-out benchmark를 사용해 정확도를 검증하려고 하며, 목표는 top-1 accuracy가 최소 92%이다. 모델의 정확도를 평가하기 위한 가장 적절한 전략은 무엇인가?
compute cost와 runtime은 운영 metric(효율성)이지, 예측 성능 metric(효과성)이 아니다. 이는 예산 수립, scaling, latency/throughput 계획에는 도움이 되지만, 모델이 요구된 92% top-1 accuracy를 충족하는지 확인할 수는 없다. 모델은 저렴하고 빠르지만 부정확할 수도 있고, 비싸고 느리지만 정확할 수도 있다. 이 선택지는 라벨이 있는 ground truth 대비 정답 여부를 평가하지 않는다.
이는 지정된 평가 dataset에서 요구된 metric을 직접 측정하기 때문에 올바른 전략이다. 10,000개의 라벨링된 이미지에 대해 inference를 수행하고, top-1 accuracy(argmax prediction이 true label과 동일)를 계산한 뒤, 결과를 92% 합격 임계값과 비교한다. 이는 multi-class classification에 대한 표준 ML 평가 방식이며, 출시 전 실제 환경에서의 성능을 가장 잘 반영한다.
layer 또는 parameter 수를 세는 것은 모델의 capacity/complexity를 설명할 뿐, 해당 작업에서의 실제 정확도를 의미하지 않는다. parameter 수가 때로는 성능과 상관이 있을 수 있지만, 대표적인 라벨링된 benchmark에서의 경험적 평가를 대체할 수는 없다. 비슷한 크기의 두 모델도 학습 데이터, fine-tuning, preprocessing, domain shift에 따라 정확도가 크게 달라질 수 있다. 이 선택지는 92% 요구사항을 검증하지 못한다.
color fidelity 검사는 image preprocessing pipeline을 검증하는 데(예: 의도치 않은 변환이 없는지 확인) 유용할 수 있지만, 라벨링된 카테고리 대비 분류 정확도를 측정하지는 않는다. 모델은 color-accurate한 이미지를 받아도 여전히 오분류할 수 있다. 요구사항은 라벨링된 benchmark에서의 top-1 accuracy이며, 이는 prediction과 ground truth label을 비교하여 계산해야 한다.
핵심 개념: 이 문제는 라벨이 있는 holdout dataset과 multi-class image classification에 적절한 metric(top-1 accuracy)을 사용한 기본적인 ML 모델 평가를 테스트한다. AWS 관점에서는 Amazon SageMaker에서 모델을 구축했든(학습 job + 평가 job) foundation model의 성능을 benchmark dataset으로 평가하든, 표준 평가 방식과 일치한다. 정답이 맞는 이유: 팀에는 명확한 합격 기준이 있다: 200개 카테고리에 대해 10,000개의 라벨링된 이미지로 구성된 held-out benchmark에서 top-1 accuracy가 최소 92%여야 한다. 가장 적절한 전략은 해당 benchmark set에 대해 inference를 수행하고, top-1 accuracy(모델이 가장 높은 확률로 예측한 class가 ground-truth label과 일치하는 이미지의 비율)를 계산한 뒤, 그 결과를 92% 목표와 비교하는 것이다. 이는 명시된 목표를 직접 측정하며, 출시 전에 generalization performance를 추정하기 위해 올바른 dataset split(held-out)을 사용한다. 주요 AWS 기능 / Best Practices: 실무에서는 benchmark를 Amazon S3에 저장하고, batch inference(예: SageMaker Batch Transform 또는 processing job)를 실행한 다음, 재현 가능한 pipeline(SageMaker Pipelines)에서 metric을 계산한다. 또한 SageMaker Experiments/Model Registry로 metric과 artifact를 추적할 수 있다. 분류의 경우 class imbalance를 탐지하기 위해 보완 metric(confusion matrix, per-class accuracy, macro/micro F1)도 고려할 수 있지만, 이 문제는 top-1 accuracy를 명시적으로 요구한다. 흔한 오해: cost/runtime(A)는 운영에 중요하지만 예측 품질을 검증하지는 않는다. 모델 크기(C)는 성능을 보장하지 않으며, 더 큰 모델도 부정확하거나 miscalibrated될 수 있다. 이미지 color fidelity 검사(D)는 preprocessing/품질 보증과 관련이 있으며, 라벨 대비 분류 정답 여부와는 다르다. Exam Tips: 문제가 (1) 라벨이 있는 holdout set과 (2) 목표 metric 임계값을 제공하면, 정답 접근은 거의 항상 holdout set에서 해당 metric을 계산하고 임계값과 비교하는 것이다. 평가 방법을 비즈니스 요구사항(여기서는 multi-class classification을 위한 top-1 accuracy)에 맞춰라.
미디어 스트리밍 플랫폼이 3개 AWS Regions에 걸쳐 150개의 ML inference containers를 운영하며 분당 25,000건의 요청을 처리하고 있습니다. 이 워크로드에 대해 P95 latency, 5xx error rate, 그리고 GPU/CPU utilization을 중앙에서 추적하고 경고할 수 있는 고도로 확장 가능한 AWS 서비스를 필요로 합니다. 회사는 어떤 AWS 서비스를 사용해야 합니까?
Amazon CloudWatch는 중앙 집중식 운영 모니터링을 위한 올바른 서비스입니다. 대규모로 metrics를 수집하고 저장하며, latency distributions에 대해 P95와 같은 percentile statistics를 지원하고, alarms, dashboards, notifications를 제공합니다. Container Insights와 custom metrics를 사용하면 여러 containers와 여러 Regions 전반에서 CPU/GPU utilization과 5xx error rate 같은 application KPI를 추적할 수 있습니다.
AWS CloudTrail은 auditing, governance, 보안 조사(예: 누가 instance를 시작했는지 또는 IAM policy를 변경했는지)를 위해 AWS API calls 및 events를 기록합니다. P95 latency, HTTP 5xx rates, GPU/CPU utilization 같은 성능 모니터링을 위한 것이 아니며, application SLO에 대한 metric 기반 alarming을 제공하지 않습니다.
AWS Trusted Advisor는 cost optimization, performance, security, fault tolerance, service limits 전반에 걸쳐 주기적인 checks와 권고를 제공합니다. quotas에 근접하거나 리소스가 underutilized된 것 같은 이슈를 표시할 수는 있지만, 실시간 per-request latency percentiles, 5xx error monitoring, 또는 alerting을 포함한 container-level GPU/CPU telemetry를 제공하지 않습니다.
AWS Config는 AWS 리소스의 configuration state 및 changes를 추적하고 compliance rules(예: S3 buckets가 public인지, security groups가 0.0.0.0/0을 허용하는지)에 대해 평가합니다. metrics/observability 서비스가 아니며, P95 latency를 네이티브로 계산하거나 5xx error rates를 모니터링하거나 containers의 runtime GPU/CPU utilization을 추적할 수 없습니다.
핵심 개념: 이 문제는 AWS에서의 observability 및 운영 모니터링을 평가합니다—metrics를 수집하고, 다수의 containers와 Regions 전반에서 집계하며, percentiles(P95)를 생성하고, 임계값 기반 alerting을 구성하는 능력입니다. metrics, logs, dashboards, alarms를 위한 AWS 네이티브 서비스는 Amazon CloudWatch입니다. 정답이 맞는 이유: 플랫폼은 높은 요청량 환경에서 3개 Regions에 분산된 150개의 inference containers 전반에 대해 P95 latency, 5xx error rate, GPU/CPU utilization을 중앙에서 추적하고 alerting해야 합니다. CloudWatch는 높은 cardinality의 time-series metrics를 수집하도록 설계되어 있으며, 분포에 대한 statistics(분위수/percentiles 포함)를 계산하고 alarms를 트리거할 수 있습니다. custom metrics 또는 embedded metric format을 통해 application metrics(latency, HTTP 5xx)를 수집할 수 있고, CloudWatch Agent 및 Container Insights(ECS/EKS)를 통해 infrastructure/container metrics(CPU, memory, GPU)를 수집할 수 있습니다. multi-Region 운영을 위해 CloudWatch는 cross-account 및 cross-Region dashboards를 지원하며, Amazon SNS, OpsCenter 또는 incident tooling을 통해 alarms/notifications를 라우팅할 수 있습니다. 주요 AWS 기능: 1) CloudWatch Metrics + Alarms: P95 latency 및 5xx rate에 대한 alarms를 생성하고, metric math로 error rate(5xx/total)를 계산합니다. 2) Container Insights: container 및 node 단위 CPU/memory/network를 수집하고 EKS/ECS와 통합합니다. 3) GPU monitoring: GPU utilization을 custom metrics로 게시(예: CloudWatch Agent/telegraf/nvidia-smi exporters)하고 임계값에 대해 alarm을 설정합니다. 4) Dashboards 및 cross-Region 가시성: 모든 Regions를 보는 중앙 dashboards; 필요 시 cross-account observability로 중앙화합니다. 5) Anomaly Detection 및 Logs Insights(선택): latency regression을 탐지하고 상관관계를 위해 logs를 쿼리합니다. 흔한 오해: CloudTrail은 종종 monitoring과 혼동되지만, 성능 metrics가 아니라 API activity(누가 무엇을 했는지)를 기록합니다. Trusted Advisor는 best-practice checks 및 cost/security 권고를 제공하지만, 실시간 P95 latency 추적을 제공하지 않습니다. AWS Config는 리소스 configuration changes 및 compliance를 추적하며, runtime latency나 GPU utilization을 다루지 않습니다. 시험 팁: “track metrics”, “percentiles (P95)”, “alerting”, “dashboards”, “operational monitoring”이 보이면 기본적으로 CloudWatch를 선택합니다. audit/API history는 CloudTrail, configuration compliance/drift는 Config, account-level recommendations는 Trusted Advisor를 선택합니다. containerized ML inference에서는 Container Insights + model latency 및 GPU utilization을 위한 custom metrics가 흔한 패턴임을 기억하세요.
Amazon Bedrock에서 호스팅되는 금융 자문 chatbot이 temperature=0.9 및 top_p=0.95로 호출될 때 500개 프롬프트에 대한 내부 평가에서 12%의 hallucination 비율을 보이며, 팀은 재학습하거나 foundation model을 변경하지 않고 24시간 내에 hallucination을 5% 미만으로 줄여야 합니다—무엇을 해야 합니까?
오답. Agents for Amazon Bedrock는 추론 시점에서 다단계 작업(tool 사용, function calling, retrieval, workflow 실행)을 오케스트레이션하는 데 사용됩니다. 이는 “모델의 학습 프로세스를 감독”하지 않으며, foundation model이 학습된 방식을 바꿔 hallucination을 직접 줄이지도 않습니다. agents가 도구나 knowledge bases로 응답을 grounding하여 사실성을 개선할 수는 있지만, 이 선택지의 전제인 학습 감독은 틀렸습니다.
오답. hallucination을 유발하는 학습 예제를 제거하기 위한 데이터 사전 처리는 모델의 학습 데이터셋에 접근하여 수정한 뒤 재학습 또는 fine-tuning을 수행할 수 있음을 전제합니다. 문제는 재학습을 명시적으로 금지하고 24시간 내 개선을 요구합니다. Bedrock의 managed foundation models에서는 고객이 원본 학습 코퍼스를 편집할 수 없는 경우가 일반적입니다. 이 접근은 제시된 제약에서 실행 불가능합니다.
정답. temperature를 낮추면 token sampling의 무작위성이 줄어 출력이 더 결정적이 되며, 특히 금융 자문처럼 고위험 도메인에서 창의적 표현이 조작된 사실로 이어질 수 있는 경우 hallucination을 일반적으로 줄입니다. 이는 Bedrock 호출 파라미터(temperature/top_p)를 사용하는 즉각적인 추론 시점 변경이며, 동일한 500개 프롬프트 평가 세트로 빠르게 검증하여 hallucination이 5% 미만으로 떨어졌는지 확인할 수 있습니다.
오답. 다른 foundation model로 전환하면 hallucination이 줄어들 수 있지만, 문제는 팀이 foundation model을 변경할 수 없다고 명시합니다. 설령 허용되더라도 모델 전환은 재검증, 프롬프트 조정, 회귀 테스트가 필요한 경우가 많아 24시간 내 가장 빠른 준수 해결책이 되기 어렵습니다. 최선의 답은 제약을 준수하면서 추론 시점 제어를 사용하는 것입니다.
핵심 개념: 이 문제는 Amazon Bedrock의 foundation model에 대한 추론 시점 제어—특히 decoding 파라미터(temperature 및 top_p)가 출력 변동성과 hallucination 위험에 어떤 영향을 미치는지—를 평가합니다. 재학습, fine-tune, 또는 모델 변경이 불가능할 때 가장 빠른 레버는 생성 구성(generation configuration)입니다. 정답이 맞는 이유: temperature 0.9와 top_p=0.95는 token 선택에서 무작위성을 높여 다양하고 창의적인 출력을 유도합니다. 금융 자문 chatbot에서는 이러한 창의성이 종종 조작된 사실, 출처, 또는 과도하게 확신하는 잘못된 진술(hallucinations)로 나타납니다. temperature를 낮추면(예: ~0.2) sampling이 더 결정적이 되어 모델이 더 높은 확률의 token을 선택하고 더 보수적인 완성을 생성하도록 유도합니다. 이는 일반적으로 hallucination을 빠르게 줄이며, Bedrock 호출 파라미터를 변경하는 것만으로 즉시(수 분 내) 적용할 수 있어 24시간 제약을 충족합니다. 주요 AWS 기능: Amazon Bedrock runtime APIs는 temperature 및 top_p(nucleus sampling) 같은 추론 파라미터를 요청별(per-request) 또는 기본값(default)으로 구성할 수 있습니다. 팀은 동일한 평가 프롬프트에 대해 파라미터 세트를 A/B 테스트하여 hallucination 감소를 정량화할 수 있습니다. 프로덕션에서는 이러한 설정을 애플리케이션 계층 또는 오케스트레이션 구성 요소(예: Bedrock invocation wrapper)를 통해 일관되게 적용할 수 있으며, 기반 foundation model을 수정할 필요가 없습니다. 흔한 오해: “hallucinations는 더 나은 학습 데이터가 필요하다” 또는 “다른 모델이 필요하다”라고 생각하기 쉽지만, 문제는 재학습과 모델 변경을 명시적으로 금지합니다. 또 다른 오해는 Agents for Amazon Bedrock가 “학습을 감독한다”는 것인데, agents는 추론 시점에서 tool 사용, retrieval, action 실행을 오케스트레이션할 뿐 모델 학습을 수행하지 않습니다. retrieval-augmented generation (RAG) 및 guardrails도 hallucination을 줄일 수 있지만, 여기의 선택지는 가장 빠르고 확실한 변경인 decoding 무작위성 조정에 초점을 둡니다. 시험 팁: 제약 조건이 “재학습/fine-tuning 불가” 및 “빠르게 해결해야 함”이라면, 추론 시점 완화책을 찾으세요: temperature/top_p 낮추기, retrieval로 grounding 추가, guardrails 추가, citations 요구. 높은 temperature/top_p는 창의성을 증가시키고, 낮은 temperature는 결정성을 증가시키며—금융, 의료, 법률 같은 규제 도메인에 선호됩니다. 완화책을 제약과 타임라인에 매핑하세요: 파라미터 튜닝이 가장 빠르고 위험이 낮은 변경입니다.
Amazon Bedrock에서 범용 foundation model을 사용하는 한 핀테크 스타트업은 모델이 업계 특화 용어(예: 'ACH return code R01', 'SAR filing')와 규정을 준수하는 보고서 형식을 일관되게 사용하도록 보장해야 합니다. 이들은 프롬프트와 원하는 도메인 특화 출력이 짝지어진 라벨링된 예시 12,000개를 보유하고 있으며, 이 어휘와 제약에 맞게 모델을 적응시키고자 합니다—어떤 기법을 사용해야 합니까?
데이터 증강은 기존 데이터의 변환 또는 합성 변형을 통해 추가 학습 예시를 만드는 것(예: 프롬프트 패러프레이징, 노이즈 추가, 추가 라벨링된 쌍 생성)입니다. 이는 견고성을 높이고 과적합을 줄이는 데 도움이 될 수 있지만, 그 자체가 foundation model이 새로운 용어와 형식을 일관되게 채택하도록 만드는 기법은 아닙니다. 증강은 종종 파인튜닝을 보완하는 요소이지, 이를 대체하지는 않습니다.
파인튜닝은 라벨링된 프롬프트–응답 예시를 사용해 모델의 가중치를 업데이트함으로써 도메인 특화 언어, 톤, 출력 형식을 신뢰성 있게 따르도록 합니다. 12,000개의 라벨링된 쌍을 통해 이 스타트업은 모델이 핀테크 용어(ACH 코드, SAR 문구)를 일관되게 사용하고 규정을 준수하는 보고서 구조를 생성하도록 학습시킬 수 있습니다. Amazon Bedrock에서 파인튜닝은 프롬프트 엔지니어링을 넘어 일관된 동작이 필요할 때 사용하는 표준적인 지도 기반 모델 커스터마이징 접근입니다.
모델 양자화는 모델 정밀도(예: FP16에서 INT8/INT4로)를 낮춰 추론 비용, 메모리 사용량, 때로는 지연 시간을 줄입니다. 이는 모델에게 새로운 어휘를 가르치거나, 컴플라이언스 형식 준수도를 개선하거나, 도메인 특화 제약에 맞게 출력을 정렬하지 않습니다. 양자화는 학습/커스터마이징 이후에 적용되는 최적화 기법이지, 범용 모델을 핀테크 용어에 적응시키는 방법이 아닙니다.
지속적 사전학습(continued pre-training)은 대량의 비라벨 도메인 텍스트로 모델을 추가 학습시켜 도메인 지식과 언어 패턴을 개선합니다. 이는 모델이 도메인처럼 “말하게” 만드는 데 도움이 될 수 있지만, 일반적으로 방대한 도메인 코퍼스가 있고 더 광범위한 도메인 적응이 필요할 때 사용됩니다. 12,000개의 라벨링된 프롬프트/출력 쌍이 존재하고 특정 규정 준수 형식이 필요하다는 점을 고려하면, 지도 기반 파인튜닝이 더 직접적이며 시험 관점에서도 더 적절한 선택입니다.
핵심 개념: 이 문제는 Amazon Bedrock의 범용 foundation model(FM)을 도메인 특화 언어와 구조화된 규정 준수 출력물을 신뢰성 있게 생성하도록 적응시키는 방법을 묻습니다. 핵심은 라벨링된 프롬프트–응답 쌍을 사용한 지도(supervised) 방식의 FM 적응입니다. 정답이 맞는 이유: 파인튜닝은 라벨링된 예시 데이터셋(여기서는 12,000개의 프롬프트/출력 쌍)이 있고, 모델이 일관된 용어(예: ACH return code, SAR filing 관련 문구)와 형식 제약을 학습하길 원할 때 적절한 기법입니다. 파인튜닝은 모델 가중치를 업데이트하여 프롬프트만으로 유도하는 접근보다 동작이 더 “내재화”되도록 만들며, 일관성을 높이고 길고 취약한 프롬프트에 대한 의존도를 줄입니다. Bedrock에서 파인튜닝은 조직의 도메인 어휘, 톤, 출력 구조에 FM을 정렬(alignment)하기 위해 지도 예시를 사용하는 정확히 그 목적의 기능입니다. 주요 AWS 기능: Amazon Bedrock에서는 Amazon S3에 저장된 학습 데이터를 사용해 모델 커스터마이징(파인튜닝)을 수행하고, 베이스 모델처럼 호출할 수 있는 커스터마이즈된 모델 아티팩트를 생성할 수 있습니다. 이는 반복 가능하고 버전 관리된 배포를 지원하며, 안전/컴플라이언스 요구사항을 강화하기 위해 가드레일(Amazon Bedrock Guardrails) 및 평가와 결합할 수 있습니다. 핀테크의 경우 일반적으로 데이터 거버넌스 제어(암호화, 액세스 정책)를 적용하고 학습 데이터 및 모델 버전에 대한 감사 가능성을 유지합니다. 흔한 오해: 데이터 증강은 데이터셋의 크기/다양성을 늘릴 수 있지만, 그 자체로 모델을 적응시키지는 않습니다. 지속적 사전학습은 “모델에게 금융을 가르친다”처럼 들리지만, 대규모 비라벨(unlabeled) 코퍼스가 필요하고 12,000개의 라벨링된 쌍에 비해 더 복잡하고 비용이 큽니다. 양자화는 추론 효율/비용을 개선하는 것이지 도메인 준수도를 높이는 것이 아닙니다. 시험 팁: 문제에 “라벨링된 prompt–completion 쌍”이 언급되고 목표가 일관된 스타일/용어/형식이라면 파인튜닝을 떠올리세요. “대규모 비라벨 도메인 텍스트”가 언급되면 continued/continuous pre-training을 떠올리세요. “지연/비용 감소”가 언급되면 quantization을 떠올리세요. “학습 예시 확장”이 언급되면 augmentation을 떠올리세요. 또한 RAG는 문서로부터 사실적 근거를 제공하는 데 도움이 되지만, 이 문제는 라벨링된 예시를 사용해 어휘/제약을 적응시키라고 명시하므로 전형적인 파인튜닝 영역입니다.
한 온라인 소매 회사가 시간당 약 10,000건의 inference 요청을 처리하는 API 뒤에 제품 추천 모델을 배포했으며, 요청의 95%가 200 ms 이내에 완료된다는 SLO가 있습니다. 운영 중인 모델의 런타임 효율성을 가장 직접적으로 나타내는 metric은 무엇입니까?
고객 만족도 점수(CSAT)는 성능과 상관관계가 있을 수 있는 비즈니스 KPI이지만, 런타임 효율성의 직접적인 측정치는 아닙니다. CSAT는 많은 비기술적 요인(제품 품질, 가격, UX, 배송 경험)의 영향을 받습니다. latency가 개선되어도 CSAT가 변하지 않을 수 있고 그 반대도 가능합니다. ms 단위의 inference SLO라면 CSAT가 아니라 latency/응답 시간 metric에 집중해야 합니다.
각 epoch의 training 시간은 모델이 얼마나 빠르게 training되는지를 측정하며, 이는 런타임 서빙 라이프사이클이 아니라 ML 개발 라이프사이클의 일부입니다. training 효율성과 비용을 나타낼 수는 있지만, 배포된 API가 inference에 대해 200 ms latency SLO를 충족하는지 여부를 알려주지는 않습니다. training 성능과 inference 성능은 최적화 방식이 다른 경우가 많고, 서로 trade-off가 발생할 수도 있습니다.
평균 응답 시간은 배포된 API가 inference 요청을 얼마나 빠르게 완료하는지를 반영하는 직접적인 런타임 metric입니다. 이는 운영 효율성(모델 크기, compute 선택, container 성능, scaling)과 밀접하게 연결됩니다. SLO가 p95 200 ms(퍼센타일 metric)로 정의되어 있더라도, 평균 응답 시간은 제공된 선택지 중 런타임 효율성과 가장 직접적으로 관련된 항목이며 CloudWatch에서 흔히 모니터링됩니다.
training 인스턴스 수는 training 동안 사용된 compute 규모를 나타내며, 이는 training 속도와 비용에 영향을 줍니다. 하지만 inference 런타임 효율성이나 프로덕션 endpoint가 latency SLO를 충족하는지 여부를 직접 측정하지는 않습니다. inference 성능은 training에 사용된 인스턴스 수보다 서빙 인프라(instance type, autoscaling, concurrency, batching)에 더 크게 좌우됩니다.
핵심 개념 - 이 문제는 inference API 뒤에서 제공되는 ML 모델의 운영(런타임) 효율성을 테스트합니다. AWS 관점에서는 Amazon SageMaker real-time endpoints, ECS/EKS 기반 inference, 또는 Lambda 기반 inference와 같은 모델 서빙 성능/latency metric, 그리고 “요청의 95%가 200 ms 이내”와 같은 SLO와의 연관성을 의미합니다. 정답이 맞는 이유 - 선택지 중 “평균 응답 시간”은 운영 중인 모델의 런타임 효율성을 가장 직접적으로 반영하는 metric입니다. 런타임 효율성은 배포된 모델, 인스턴스 타입, container/runtime, scaling 구성에서 inference 요청을 얼마나 빠르게 완료할 수 있는지에 관한 것입니다. SLO는 명시적으로 percentile 기반(p95 latency)이지만, 평균 응답 시간 역시 직접적인 latency metric이며 training 또는 비즈니스 만족도 metric보다 런타임 효율성과 훨씬 더 가깝습니다. 주요 AWS 기능 - 프로덕션에서는 일반적으로 Amazon CloudWatch metric과 로그를 사용해 latency percentile(p50/p90/p95/p99)과 throughput을 모니터링합니다. SageMaker endpoint의 경우 주요 metric에는 ModelLatency와 OverheadLatency(및 해당 percentile 통계), Invocations, 그리고 CPUUtilization/MemoryUtilization이 포함되며, 이를 통해 성능과 리소스 포화 간의 상관관계를 확인합니다. API Gateway + Lambda/ECS/EKS의 경우 CloudWatch metric(Latency, IntegrationLatency), ALB target response time, 그리고 distributed tracing(AWS X-Ray)을 사용해 시간이 어디에서 소비되는지 분리해 파악합니다. Autoscaling(SageMaker endpoint autoscaling, ECS Service Auto Scaling, EKS의 KEDA)은 부하 상황에서 latency를 유지하는 데 도움이 됩니다. 흔한 오해 - CSAT는 inference 런타임 외에도 UI, 가격, 배송 등 많은 요인의 영향을 받는 결과 metric입니다. epoch당 training 시간과 training 인스턴스 수는 inference 서빙이 아니라 training 단계와 관련됩니다. 이는 모델 반복 속도와 비용에는 영향을 줄 수 있지만, 배포된 endpoint가 실시간 요청을 얼마나 효율적으로 처리하는지를 직접적으로 나타내지는 않습니다. 시험 팁 - SLO가 ms 단위와 percentile로 제시되면 “latency metric”(특히 p95/p99)을 떠올리세요. 정확한 percentile metric이 선택지에 없으면, 비즈니스 KPI나 training metric이 아니라 가장 가까운 직접 런타임 성능 지표(응답 시간/latency)를 고르세요. 또한 training-time 최적화(epoch, training cluster 규모)와 inference-time 최적화(instance type, batching, model compilation, autoscaling, caching)를 구분하는 것을 기억하세요.
지역 의료 클리닉은 Amazon Bedrock의 foundation model (FM)을 사용하여 환자 질문에 답하는 트리아지 어시스턴트를 구동하고 있습니다. 이 시스템은 하루 약 18,000건의 쿼리를 처리하며, 클리닉은 6,000개의 선별된 예시로 FM을 fine-tuning하여 클리닉별 정책에 대한 정확도를 개선하려고 합니다. 어떤 전략이 모델을 성공적으로 fine-tuning할 수 있습니까?
정답입니다. Amazon Bedrock에서 fine-tuning은 입력과 원하는 출력을 짝지은 labeled example에 의해 수행됩니다. 각 예시를 prompt 필드(지시/사용자 입력/컨텍스트)와 completion 필드(이상적인 어시스턴트 응답)로 표현하는 것은 supervised fine-tuning 패러다임에 부합하며, 모델에 클리닉별 정책 동작을 학습시키기 위한 핵심 요구사항입니다.
오답입니다. CSV 형식의 라인이 포함된 일반 .txt 파일은 Bedrock fine-tuning에 기대되는 dataset 구조가 아닙니다. Bedrock 커스터마이징 워크플로는 일반적으로 명확히 정의된 필드(예: prompt/completion)를 가진 structured dataset format(보통 JSON Lines)을 요구합니다. 임의의 텍스트 파일을 사용하면 schema validation 실패 및 학습 데이터로서의 사용 불가 위험이 있습니다.
오답입니다. Amazon Bedrock의 Provisioned Throughput은 inference 용량 기능으로, 일관된 성능과 더 낮은 latency 변동성을 위해 모델 throughput을 예약합니다. 이는 모델 가중치를 수정하지 않으므로 클리닉별 정책에 대한 정확도를 개선하지 않습니다. 이는 스케일링과 예측 가능성을 다루는 것이지 fine-tuning 또는 커스터마이징이 아닙니다.
오답입니다. 저널과 교과서로 학습시키는 것은 클리닉별 정책을 위한 타깃 fine-tuning 전략이 아니며, labeled prompt-response 쌍으로 설명되지도 않습니다. unlabeled 도메인 텍스트는 pretraining 또는 RAG를 위한 retrieval corpus 구축에 더 가깝습니다. 정책 준수를 개선하려면 모델에 원하는 답변의 supervised example이 필요합니다.
핵심 개념: 이 문제는 Amazon Bedrock의 모델 커스터마이징(fine-tuning)과 foundation model의 supervised fine-tuning에 필요한 training data 형식을 평가합니다. Bedrock에서 fine-tuning은 일반적으로 labeled prompt-response 쌍을 사용하여, 클리닉별 입력이 주어졌을 때 클리닉별 출력을 생성하도록 모델이 학습하게 합니다. 정답이 맞는 이유: 클리닉 정책에 대한 정확도를 높이기 위해 FM을 fine-tuning하려면, 클리닉은 입력(사용자 질문 또는 지시/컨텍스트)과 원하는 출력(이상적인 어시스턴트 답변)을 매핑하는 선별된 예시를 제공해야 합니다. 선택지 A는 필수적인 supervised fine-tuning 구조인 “prompt” 필드와 “completion” 필드(즉, input-output 쌍)를 설명합니다. 이는 instruction tuning의 정석적인 접근이며, Bedrock 커스터마이징 워크플로가 개념적으로 기대하는 방식입니다. 즉, 모델은 prompt에 조건화된 completion을 예측하도록 학습됩니다. 주요 AWS 기능: Amazon Bedrock은 특정 FM에 대해 모델 커스터마이징을 지원하며, Amazon S3에 저장된 training dataset 및 (선택적으로) validation dataset을 제공합니다. 데이터셋은 보통 구조화된 레코드(종종 JSON Lines)로 제공되며 prompt/completion(또는 동등한 input/output) 필드를 포함합니다. 또한 training 파라미터(epochs, 적용 가능한 경우 learning rate)를 구성하고, Bedrock은 Bedrock runtime을 통해 호출할 수 있는 커스터마이징된 모델 아티팩트를 생성합니다. 헬스케어의 경우 데이터 거버넌스도 보장해야 합니다: S3에 대한 least-privilege 액세스, encryption (SSE-KMS), 그리고 PHI의 신중한 처리. 흔한 오해: 자주 나오는 함정은 fine-tuning을 throughput 스케일링과 혼동하는 것입니다. Provisioned Throughput은 inference에 대한 성능/일관성을 개선하지만 모델 가중치나 정확도를 변경하지는 않습니다. 또 다른 함정은 어떤 텍스트 코퍼스(저널/교과서)든 모델에 정책을 “가르칠” 수 있다고 생각하는 것입니다. labeled target output이 없으면 이는 정책 준수를 위한 supervised fine-tuning이 아닙니다. 마지막으로, 잘못된 파일 형식(예: CSV 라인이 들어 있는 .txt)은 Bedrock이 기대하는 dataset schema를 충족하지 못합니다. 시험 팁: “curated examples로 fine-tune”이라는 표현을 보면 “supervised prompt-response pairs”와 “S3에 호스팅된 structured dataset”을 떠올리세요. 선택지가 throughput, latency, capacity를 말하면 이는 training이 아니라 inference 스케일링입니다. unlabeled 코퍼스를 말하면 이는 특정 응답 동작을 위한 fine-tuning이 아니라 pretraining 또는 RAG 콘텐츠에 더 가깝습니다.