세계 최대 오픈 소스 다중 모달 데이터 세트는 17배의 교육 효율성을 제공하여 기업의 역량을 강화합니다

세계 최대 오픈 소스 다중 모달 데이터 세트는 17배의 교육 효율성을 제공하여 기업의 역량을 강화합니다

IT/기술 전문 정보

세계 최대 오픈 소스 다중 모달 데이터 세트는 17배의 교육 효율성을 제공하여 기업의 역량을 강화합니다

AI 모델은 훈련된 데이터만큼만 우수합니다. 일반적으로 해당 데이터는 모델이 효과적인 방식으로 학습할 수 있으려면 먼저 레이블을 지정하고 선별하고 구성해야 합니다. AI 생태계에서 가장 큰 누락된 링크 중 하나는 대규모 고품질 오픈 소스 다중 모드 데이터 세트의 가용성입니다. 오늘날 텍스트, 이미지, 비디오, 오디오 및 3D 포인트 클라우드의 5가지 형식에 걸쳐 10억 개의 데이터 쌍과 1억 개의 데이터 그룹으로 구성된 EMM-1 데이터 세트가 출시되면서 이러한 상황이 바뀌었습니다. 다중 모드 데이터 세트는 AI 시스템이 함께 처리

핵심 특징

고품질

검증된 정보만 제공

빠른 업데이트

실시간 최신 정보

상세 분석

전문가 수준 리뷰

상세 정보

핵심 내용

AI 모델은 훈련된 데이터만큼만 우수합니다. 일반적으로 해당 데이터는 모델이 효과적인 방식으로 학습할 수 있으려면 먼저 레이블을 지정하고 선별하고 구성해야 합니다. AI 생태계에서 가장 큰 누락된 링크 중 하나는 대규모 고품질 오픈 소스 다중 모드 데이터 세트의 가용성입니다. 오늘날 텍스트, 이미지, 비디오, 오디오 및 3D 포인트 클라우드의 5가지 형식에 걸쳐 10억 개의 데이터 쌍과 1억 개의 데이터 그룹으로 구성된 EMM-1 데이터 세트가 출시되면서 이러한 상황이 바뀌었습니다. 다중 모드 데이터 세트는 AI 시스템이 함께 처리할 수 있는 다양한 유형의 데이터를 결합합니다. 이는 인간이 여러 감각을 동시에 사용하여 세상을 인식하는 방식을 반영합니다. 이러한 데이터 세트를 통해 AI 시스템은 각 양식을 개별적으로 처리하는 대신 데이터 유형 간의 관계를 이해함으로써 더욱 풍부한 추론을 할 수 있습니다. EMM-1은 데이터 라벨링 플랫폼 공급업체인 Encord에서 개발했습니다

상세 분석

. 이 회사의 플랫폼을 통해 팀은 자동화된 워크플로와 인간 참여형 워크플로를 모두 사용하여 규모에 맞게 교육 데이터를 선별하고 레이블을 지정하고 관리할 수 있습니다. 새로운 모델과 함께 Encord는 원시 계산 규모보다 데이터 품질을 우선시하는 EBind 교육 방법론을 개발했습니다. 이 접근 방식을 사용하면 GPU 클러스터가 아닌 단일 GPU에서 훈련 시간을 며칠에서 몇 시간으로 단축하면서 최대 17배 더 큰 모델의 성능과 일치하는 컴팩트한 18억 매개변수 모델이 가능해졌습니다. Encord 공동 창립자이자 CEO인 Eric Landau는 VentureBeat와의 독점 인터뷰에서 “우리에게 가장 큰 비결은 데이터에 초점을 맞추고 데이터의 품질을 매우 높게 만드는 것이었습니다.”라고 말했습니다. “우리는 20배 더 큰 모델과 동일한 수준의 성능을 얻을 수 있었습니다. 이는 우리가 아키텍처에 대해 매우 영리했기 때문이 아니라 전반적으로 정말 좋은 데이터로 모델을 훈련했기 때문입니다.” 데이터 품질 이점Encord의 데이터 세트는 다음 비교 가능한 다중 모드 데이터 세트보다 100배 더 큽니다. Landau에 따르면.

정리

테라바이트 규모의 원시 데이터와 100만 개가 넘는 주석을 사용하여 페타바이트 규모로 작동합니다. 그러나 규모만으로는 성능 향상을 설명할 수 없습니다. 기술 혁신은 Landau가 AI 훈련에서 “과소평가된” 문제라고 부르는 것, 즉 훈련 세트와 평가 세트 사이의 데이터 누출을 해결하는 데 중점을 두고 있습니다. Landau는 “누출 문제는 우리가 많은 시간을 소비한 문제였습니다”라고 설명했습니다. “많은 데이터 세트에서 데이터의 서로 다른 하위 집합 사이에 일종의 누출이 있습니다. 누출은 실제로 결과를 향상시킵니다. 평가가 더 좋게 보입니다. 하지만 우리가 매우 부지런히 노력한 것 중 하나입니다.” 데이터 누출은 테스트 데이터의 정보가 훈련 데이터에 실수로 나타나 모델 성능 지표를 인위적으로 부풀릴 때 발생합니다.

자주 묻는 질문

Q. 어떤 정보를 제공하나요?

A. IT/기술 관련 최신 정보를 제공합니다.

Q. 신뢰할 수 있나요?

A. 검증된 출처만 선별합니다.

Q. 더 궁금한 점은?

A. 댓글로 문의하세요.

원문 출처

이 글은 원본 기사를 참고하여 작성되었습니다.

이 글과 함께 읽으면 좋은 글

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다