Gemini Nano 개선: LoRA를 사용한 고품질 요약 제공

게시일: 2025년 5월 21일

요약은 대규모 언어 모델 (LLM)을 사용하는 가장 일반적이고 중요한 AI 작업 중 하나입니다. 요약은 긴 도움말과 상세한 채팅 로그부터 수많은 리뷰에 이르기까지 광범위한 콘텐츠를 빠르게 이해하는 데 중요한 수단이므로 시간을 절약하고 생산성을 높이며 정보에 입각한 의사 결정을 더 빠르게 내릴 수 있습니다.

요약에는 다양한 유형이 있으며 세부정보 수준과 형식 지정 기대치가 다릅니다. Chrome은 다양한 요약 유형의 기대치를 충족하기 위해 Google Cloud와 협력하여 Gemini Nano의 출력을 개선했습니다.

모든 요약 스타일과 길이에 대한 환경과 출력 품질을 개선하기 위해 LoRA (Low-Rank Adaptation)를 사용하여 Gemini Nano를 미세 조정했습니다. 또한 사실성, 노출 범위, 형식, 가독성을 비롯한 요약 품질의 다양한 측면에 관한 자동자동 평가 도구 평가를 구현했습니다.

이러한 차이가 실제로 어떻게 표시되는지 시각화했습니다. 이 구현을 실험하고 Gemini Nano와 LoRA를 사용한 Gemini Nano의 출력을 비교하는 실시간 데모를 살펴볼 수 있습니다.

Summarizer API란 무엇인가요?

설명 동영상 확장 프로그램 Chrome 상태 인텐트
MDN Chrome 138 Chrome 138 View 배송 의도

Summarizer API는 긴 텍스트 콘텐츠를 이해하기 쉬운 간단한 요약으로 압축합니다. 이 API는 Chrome에 내장되어 있으며 Gemini Nano를 사용하여 추론을 실행합니다.

사이트마다 다양한 스타일과 길이의 요약이 필요할 수 있습니다. 예를 들어 뉴스 사이트의 경우 기사의 주요 사항을 글머리기호 목록으로 제공할 수 있습니다. 또는 제품 리뷰를 둘러보는 사용자는 리뷰 감정을 빠르고 간단하게 요약하여 확인할 수 있습니다. 예를 들어 웰시 코기의 위키백과 페이지를 길이를 short로 설정하여 요약했습니다.

요약 유형 출력
headline ## 웰시코기: 왕족과 목양견의 역사
key-points * 웨일스 코기는 웨일스에서 유래한 작은 목양견입니다.
* 펨브로크와 카디건 웰시 코기라는 두 가지 주요 품종이 있습니다.
* 페름베로가 더 인기가 있으며 영국 왕가와 관련이 있습니다.
tldr 웨일스와 영국 왕실에서 오랜 역사를 지닌 작은 목양견인 웨일스 코기는 페름베로와 카디건 두 가지 종류가 있으며, 여우 같은 얼굴, 짧은 다리, 목양 본능으로 유명합니다.
teaser 웨일스 농부들의 양치기 개로 시작하여 영국 왕실의 상징으로 성장한 웨일스 코기의 역사를 살펴보세요.

Summarizer API 플레이그라운드를 사용하여 다른 페이지를 실험할 수 있습니다.

미세 조정 실험

미세 조정은 버전 138.0.7180.0부터 Chrome Canary의 플래그로만 사용할 수 있습니다. 이 모델을 사용하려면 다음 단계를 따르세요.

  1. Chrome Canary를 엽니다.
  2. chrome://flags/#summarization-api-for-gemini-nano(으)로 이동
  3. 조정 사용 설정됨을 선택합니다.
  4. 브라우저를 다시 시작합니다.
  5. DevTools 콘솔을 열고 Summarizer.availability()을 입력합니다. 그러면 보조 LoRA 다운로드가 시작됩니다.

다운로드가 완료되면 실험을 시작할 수 있습니다.

요약 도구의 성능 평가

미세 조정된 Gemini Nano의 성능 개선은 주로 두 가지 평가 방법인 자동autorater를 사용하여 측정했습니다. 미세 조정을 사용하면 모델이 다음과 같은 특정 작업을 더 효과적으로 수행할 수 있습니다.

  • 의료 텍스트를 더 효과적으로 번역합니다.
  • 특정 아트 스타일로 이미지를 생성합니다.
  • 새로운 속어 이해하기

이 경우 각 요약 유형의 기대치를 더 잘 충족하고자 했습니다.

자동 평가

자동 평가는 소프트웨어를 사용하여 모델의 출력 품질을 판단합니다. 이 기법을 사용하여 영어 입력의 요약에서 형식 오류, 문장 반복, 영어가 아닌 문자의 존재를 검색했습니다.

  • 형식 지정 오류: 요약 대답이 프롬프트의 형식 지정 안내를 따르는지 확인합니다. 예를 들어 짧은 키포인트 스타일의 경우 각 글머리기호가 별표 (*)로 시작하고 글머리기호 수가 3개를 초과하지 않는지 확인합니다.

  • 문장 반복: 단일 요약 응답에서 동일한 문장이 반복되는지 확인합니다. 이는 응답의 품질이 좋지 않음을 나타냅니다.

  • 비영어 문자: 입력이 영어로 되어야 하는 경우 응답에 비영어 문자가 포함되어 있는지 확인합니다.

  • 출력의 하이퍼링크: 입력에 없는 마크다운 형식 또는 일반 텍스트의 하이퍼링크가 응답에 있는지 확인합니다.

스크랩된 기사와 채팅 로그라는 두 가지 입력 형식을 평가했습니다.

  광고 제목 TLDR 핵심 사항 티저
  기본 / LoRA 사용 기본 / LoRA 사용 기본 / LoRA 사용 기본 / LoRA 사용
형식 오류 13.54% / 7.05% 41.07% / 4.61% 12.58% / 6.36% 51.17% / 6.74%
문장 반복 0.07% / 0.07% 0.21% / 0.0% 0.10% / 0.10% 0.10% / 0.03%
비영어 오류 3.95% / 0.03% 1.38% / 0.0% 2.41% / 0.03% 1.44% / 0.0%
하이퍼링크 0.07% / 0.0% 0.14% / 0.0% 0.14% / 0.0% 0.34% / 0.0%
다양한 요약 유형에 걸쳐 970개의 도움말에 대한 자동 평가
  제목 TLDR 핵심사항 티저
  기본 / LoRA 사용 기본 / LoRA 사용 기본 / LoRA 사용 기본 / LoRA 사용
형식 오류 13.17% / 0.24% 22.92% / 0.18% 4.43% / 0.09% 29.64% / 3.51%
문장 반복 0.0% / 0.0% 0.0% / 0.0% 0.0% / 0.0% 0.03% / 0.0%
비영어 오류 0.15% / 0.0% 0.15% / 0.0% 0.03% / 0.0% 0.06% / 0.0%
하이퍼링크 0.0% / 0.0% 0.0% / 0.0% 0.0% / 0.0% 0.0% / 0.0%
1,091개의 채팅 항목 샘플에 대한 자동 평가

Gemini Nano를 미세 조정한 결과, 도움말과 채팅 로그 모두에서 다양한 요약 유형의 형식 오류율이 크게 감소했습니다.

자동 평가 도구 평가

Gemini Nano의 출력 품질을 판단하기 위해 자동 평가 도구 평가에 Gemini 1.5 Pro를 사용했습니다. 요약마다 목적이 다르므로 요약 유형에 따라 기준과 기준 값이 다릅니다. 모든 요약 유형은 다음 사항을 기준으로 평가되었습니다.

  • 범위: 요약이 입력의 핵심 목적을 정확하게 포착했나요?
  • 사실성: 요약이 사실인가요? 요약에 텍스트에 명시적으로 언급되거나 암시되지 않은 새로운 정보가 포함되어 있나요?
  • 형식: 요약의 형식이 유효한 마크다운 문법으로 지정되어 있나요? 요약이 요청된 대로 최대 문장 길이를 준수하나요?
  • 명확성: 요약이 반복되나요? 요약이 가능한 한 적은 단어로 핵심 메시지를 정확하게 전달하나요?

이러한 요약 유형은 목적이 다르므로 특정 요약 유형에 추가 측정항목이 적용됩니다.

  • 참여도: (headline): 일반 사용자가 요약을 즉시 이해할 수 있나요? 요약에서 일반 사용자의 관심을 끌고 호소력 있는 어조를 사용했나요?
  • 간결성 (tldr): 요약이 명확하고 간결하며 주의 지속 시간이 매우 짧은 사용자도 즉시 이해할 수 있나요? 핵심 메시지를 쉽게 소화할 수 있는 형식으로 효과적으로 요약하여 빠르게 읽을 수 있나요?
  • 유인 (teaser): 요약이 흥미를 유발하고 독자가 전체 텍스트를 읽고 자세히 알아보도록 유도하나요? 흥미로운 콘텐츠를 암시하는 매력적인 표현을 사용했나요?

자동 평가 도구를 사용하여 기본 모델의 출력과 LoRA를 사용한 모델의 출력을 나란히 비교했습니다. 자동 평가기의 점수는 0과 1 사이에서 평균을 내고 이를 기준 값과 비교하여 평가했습니다.

Google은 데이터 분산을 줄이고 위치 편향을 완화하여 근거가 탄탄한 결과를 얻었습니다.

  • 데이터 분산 감소: 독립 실행의 결과가 약간 다를 수 있으므로 입력당 세 개의 독립 출력 점수를 평균화했습니다. 기본 모델과 미세 조정된 Gemini Nano의 출력을 모두 평균화했습니다. 출력물 간의 점수 차이는 약간 밖에 되지 않았지만 평균을 사용하면 대규모 데이터 세트를 더 안정적으로 이해할 수 있습니다.
  • 순위 편향 완화: 평가자와 먼저 공유된 요약의 값을 선호하지 않도록 결과를 두 번 평가한 후 최종 점수를 평균했습니다.

    1. LoRA를 사용한 모델을 평가한 다음 기본 모델을 평가했습니다.
    2. 그런 다음 주문을 취소했습니다. 먼저 기본 모델을 평가한 후 LoRA를 사용한 모델을 평가했습니다.
    3. 최종 점수의 평균을 구했습니다.
      Short 보통 Long
      기본 / LoRA 사용 기본 / LoRA 사용 기본 / LoRA 사용
    LoRA 우선 74.29% / 86.64% 76.11% / 81.38% 68.62% / 78.95%
    먼저 기본 모델 68.02% / 88.60% 64.97% / 87.58% 58.25% / 86.35%
    버전 C (평균) 71.02% / 89.18% 69.59% / 84.08% 63.47% / 82.65%
    key-points 요약 유형의 낙찰률입니다. 값이 높을수록 결과가 더 좋습니다.

동일한 모델의 출력 점수 차이는 약간만 달라졌지만 평균을 사용하면 대규모 데이터 세트를 더 안정적으로 이해할 수 있습니다.

500개 기사에서 미세 조정된 Gemini Nano는 기본 모델보다 훨씬 우수한 성능을 보였습니다.

  제목 TLDR 핵심사항 티저
  기본 / LoRA 사용 기본 / LoRA 사용 기본 / LoRA 사용 기본 / LoRA 사용
짧은 버전 74.74% / 89.12% 55.76% / 89.50% 71.02% / 89.18% 53.47% / 87.14%
보통 73.10% / 87.89% 41.82% / 81.21% 69.59% / 84.08% 48.98% / 86.74%
길게 60.99% / 89.32% 50.51% / 84.85% 63.47% / 82.65% 62.65% / 87.55%
다양한 요약 및 길이 유형의 500개 기사에서 Autorarer 낙찰률 숫자가 높을수록 결과가 더 좋습니다.

500개의 채팅 로그를 평가한 결과도 마찬가지였습니다. 미세 조정된 Gemini Nano가 기본 모델보다 우수한 성능을 보였습니다.

  제목 TLDR 핵심사항 티저
  기본 / LoRA 사용 기본 / LoRA 사용 기본 / LoRA 사용 기본 / LoRA 사용
Short 70.59% / 96.15% 66.27% / 97.79% 81.60% / 97.40% 67.48% / 96.14%
보통 76.67% / 95.13% 56.02% / 94.98% 82.60% / 97.20% 50.41% / 96.95%
Long 59.03% / 94.32% 65.86% / 95.58% 75.00% / 97.60% 70.94% / 97.16%
다양한 요약 및 길이 유형의 500개 채팅 로그에서 Autorater 낙찰률 숫자가 높을수록 결과가 더 좋습니다.

이 결과는 미세 조정을 통해 전반적인 요약 품질이 개선되었음을 보여줍니다.

LoRA를 통한 더 나은 요약

기존에는 모델의 파라미터를 조정하여 미세 조정을 수행했습니다. 최신 AI 모델은 크기가 큽니다. 따라서 이 작업은 느리고 비용이 많이 들며 모델의 새 사본을 저장해야 합니다.

모든 매개변수를 변경하는 대신 모델을 원하는 방향으로 유도하는 작은 추가 요소를 추가하면 어떨까요? 크기가 작기 때문에 훨씬 더 빠르게 학습할 수 있습니다. 이것이 저랭크 적응 (LoRA)의 핵심 원칙입니다. LoRA에서는 모델의 특정 부분이 변경되지 않고 이를 매개변수 고정이라고 합니다. 그런 다음 작은 수정사항이 포함된 더 작은 데이터 세트를 도입하여 추가된 부분에 학습 작업을 집중합니다.

실제로 일반적으로 LoRA를 사용하여 원래 파라미터의 2% 만 학습해도 출력에 상당한 변화가 나타날 수 있습니다.

이 방법이 효과가 있는 이유는 무엇인가요? 모든 모델 매개변수를 변경하지 않고도 여러 동작 (예: 새 스타일, 작업, 지식)을 통합할 수 있습니다. 이러한 변화는 모델의 기존 지식 내에서 작은 패턴이나 방향으로 표현될 수 있습니다. LoRA는 원래 모델을 건드리지 않고 이러한 패턴을 효율적으로 포착합니다.

Gemini Nano 기본 모델을 LoRA를 추가한 후의 결과와 비교하는 몇 가지 예를 살펴보세요.

YouTube는 Gemini Nano에 조슈아 트리 국립 공원 위키백과 도움말에서 '관심을 사로잡고 콘텐츠의 핵심을 전달하는' 짧은 제목을 만들어 달라고 요청했습니다.

Gemini Nano LoRA를 사용한 Gemini Nano
조슈아 트리 국립공원의 독특한 풍경과 역사 조슈아 트리: 사막을 가로지르는 캘리포니아의 국립공원으로 상징적인 나무가 서식합니다.

다음으로 Gemini Nano에 라따뚜이 도움말의 짧은 티저를 요청했습니다. "사용자가 전체 텍스트를 읽도록 유도하는 한 문장을 작성하세요."

Gemini Nano LoRA를 사용한 Gemini Nano
라타투이는 토마토와 마늘을 포함한 으깬 야채를 주재료로 하는 프랑스 프로방스 지방의 인기 요리입니다. 18세기에 그 기원을 찾을 수 있으며, 시간이 지남에 따라 준비 방법이 진화해 왔습니다. 일부 셰프는 개별 야채의 맛을 강조하는 반면, 다른 셰프는 더 부드럽고 통일된 질감을 선호합니다. 프랑스에서 시작된 라타투이의 영향을 받아 스페인의 피페라드, 지중해의 티안 등 전 세계 다양한 요리에서 유사한 요리가 탄생했습니다. 영화 '라따뚜이' (2007)는 라따뚜이의 다재다능함과 감정적 공감을 보여주며 이 요리의 인기를 더욱 높였습니다. 프랑스 프로방스 지방의 야채 스튜인 라타투이는 간단한 스튜에서 전 세계 시청자의 마음을 사로잡은 현대적인 요리 걸작으로 발전해 온 풍부한 요리 역사를 지니고 있습니다.

실시간 추론 데모

Gemini Nano와 LoRA를 사용한 Gemini Nano 간의 출력 비교를 보여주는 인터페이스를 빌드했습니다.

Gemini Nano에 참치 기사의 길이가 shorttldr 요약을 생성해 달라고 요청했습니다. tldrshort의 경우 '한 번에 읽을 수 있는' 1문장으로 응답해야 합니다.

결과를 만들고 출력을 읽는 데 걸린 시간을 실시간으로 확인합니다.

미세 조정을 구현하면 Gemini Nano가 특정 안내에 따라 요약을 더 효과적으로 생성할 수 있습니다.

참여 및 의견 공유

미세 조정된 Gemini Nano가 요약에 미치는 영향에 관한 의견을 보내주세요.

브라우저에서 대규모 언어 모델을 비롯한 모델을 사용하는 모든 기본 제공 AI API를 살펴보세요.


  1. 린친유 2004. ROUGE: 요약 자동 평가를 위한 패키지 텍스트 요약의 확장, 74~81쪽, 스페인 바르셀로나 Association for Computational Linguistics. 

  2. 키쇼어 파피네니, 살림 루코스, 토드 워드, 웨이징 주 2002. BLEU: 기계 번역을 자동으로 평가하는 방법입니다. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02) 

  3. 무수미 아크터, 나만 반살, 슈브라 칸티 카르마커 2022년. 추출형 요약 작업의 자동 평가 재검토: ROUGE보다 나은 방법이 있을까요? Association for Computational Linguistics: ACL 2022의 Findings(아일랜드 더블린, 1547~1560쪽) Association for Computational Linguistics. 

  4. 다니엘 도이치와 댄 로스 2021년. 콘텐츠 품질 측정항목이 요약의 정보 품질을 측정하는 정도 이해하기 Proceedings of the 25th Conference on Computational Natural Language Learning, 300~309쪽, 온라인. Association for Computational Linguistics.