Google AI Edge Portal 소개: 대규모로 엣지 AI를 벤치마킹합니다. 비공개 미리보기 기간에 액세스 권한을 요청하려면 가입하세요.

이 페이지는 Cloud Translation API를 통해 번역되었습니다.

언어 감지 가이드

출력에서 프랑스어로 올바르게 식별된 프랑스어 입력 문장을 보여주는 UI 예시입니다.

MediaPipe Language Detector 태스크를 사용하면 텍스트의 언어를 식별할 수 있습니다. 이 태스크는 머신러닝 (ML) 모델을 사용하여 텍스트 데이터를 처리하고 예측 목록을 출력합니다. 여기서 각 예측은 ISO 639-1 언어 코드와 확률로 구성됩니다.

사용해 보기

시작하기

대상 플랫폼에 관한 다음 구현 가이드 중 하나에 따라 이 작업을 시작합니다. 다음 플랫폼별 가이드에서는 권장 모델, 권장 구성 옵션이 포함된 코드 예시 등 이 작업의 기본 구현을 안내합니다.

Android - 코드 예 - 가이드
Python - 코드 예시 - 가이드
웹 - 코드 예 - 가이드

태스크 세부정보

이 섹션에서는 이 태스크의 기능, 입력, 출력, 구성 옵션을 설명합니다.

기능

점수 기준: 예측 점수를 기준으로 결과를 필터링합니다.
라벨 허용 목록 및 차단 목록 - 감지된 카테고리 지정

태스크 입력	태스크 출력
언어 감지기는 다음 입력 데이터 유형을 허용합니다. 문자열	언어 감지기는 다음을 포함하는 예측 목록을 출력합니다. 언어 코드: ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) 언어 / 언어 코드 (예: 영어의 경우 'en', 우즈베키스탄의 경우 'uz', 일본어 (로마자)의 경우 'ja-Latn')를 문자열로 나타냅니다. 확률: 이 예측의 신뢰도 점수로, 0과 1 사이의 확률로 부동 소수점 값으로 표현됩니다.

태스크 입력

태스크 출력

언어 감지기는 다음 입력 데이터 유형을 허용합니다.

문자열

언어 감지기는 다음을 포함하는 예측 목록을 출력합니다.

언어 코드: ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) 언어 / 언어 코드 (예: 영어의 경우 'en', 우즈베키스탄의 경우 'uz', 일본어 (로마자)의 경우 'ja-Latn')를 문자열로 나타냅니다.

확률: 이 예측의 신뢰도 점수로, 0과 1 사이의 확률로 부동 소수점 값으로 표현됩니다.

구성 옵션

이 태스크에는 다음과 같은 구성 옵션이 있습니다.

옵션 이름	설명	값 범위	기본값
`max_results`	반환할 점수가 가장 높은 언어 예측의 최대 개수를 설정합니다(선택사항). 이 값이 0보다 작으면 사용 가능한 모든 결과가 반환됩니다.	모든 양수	`-1`
`score_threshold`	모델 메타데이터에 제공된 값 (있는 경우)을 재정의하는 예측 점수 기준점을 설정합니다. 이 값 미만의 결과는 거부됩니다.	모든 부동 소수점 수	설정되지 않음
`category_allowlist`	허용되는 언어 코드의 선택적 목록을 설정합니다. 비어 있지 않으면 이 세트에 언어 코드가 없는 언어 예측이 필터링됩니다. 이 옵션은 `category_denylist`와 상호 배타적이며 둘 다 사용하면 오류가 발생합니다.	모든 문자열	설정되지 않음
`category_denylist`	허용되지 않는 언어 코드 목록(선택사항)을 설정합니다. 비어 있지 않으면 이 세트에 언어 코드가 있는 언어 예측이 필터링됩니다. 이 옵션은 `category_allowlist`와 상호 배타적이며 둘 다 사용하면 오류가 발생합니다.	모든 문자열	설정되지 않음

모델

이 태스크로 개발을 시작할 때 기본 권장 모델이 제공됩니다.

언어 감지기 모델 (권장)

이 모델은 가볍게 (315KB) 빌드되며 임베딩 기반 신경망 분류 아키텍처를 사용합니다. 이 모델은 ISO 639-1 언어 코드를 사용하여 언어를 식별하며 110개 언어를 식별할 수 있습니다. 모델에서 지원하는 언어 목록은 ISO 639-1 코드별로 언어가 나열된 라벨 파일을 참고하세요.

모델 이름	입력 셰이프	양자화 유형	모델 카드	버전
언어 감지기	문자열 UTF-8	없음 (float32)	정보	최신

작업 벤치마크

다음은 위의 사전 학습된 모델을 기반으로 한 전체 파이프라인의 태스크 벤치마크입니다. 지연 시간 결과는 CPU / GPU를 사용하는 Pixel 6의 평균 지연 시간입니다.

모델 이름	CPU 지연 시간	GPU 지연 시간
언어 감지기	0.31ms	-