세계 최대 오픈 소스 다중 모달 데이터 세트는 17배의 교육 효율성을 제공하여 기업의 역량을 강화합니다 완벽가이드
세계 최대 오픈 소스 다중 모달 데이터 세트는 17배의 교육 효율성을 제공하여 기업의 역량을 강화합니다
IT/기술 전문 정보
AI 모델은 훈련된 데이터만큼만 우수합니다. 일반적으로 해당 데이터는 모델이 효과적인 방식으로 학습할 수 있으려면 먼저 레이블을 지정하고 선별하고 구성해야 합니다. AI 생태계에서 가장 큰 누락된 링크 중 하나는 대규모 고품질 오픈 소스 다중 모드 데이터 세트의 가용성입니다. 오늘날 텍스트, 이미지, 비디오, 오디오 및 3D 포인트 클라우드의 5가지 형식에 걸쳐 10억 개의 데이터 쌍과 1억 개의 데이터 그룹으로 구성된 EMM-1 데이터 세트가 출시되면서 이러한 상황이 바뀌었습니다. 다중 모드 데이터 세트는 AI 시스템이 함께 처리
핵심 특징
고품질
검증된 정보만 제공
빠른 업데이트
실시간 최신 정보
상세 분석
전문가 수준 리뷰
상세 정보
핵심 내용
AI 모델은 훈련된 데이터만큼만 우수합니다. 일반적으로 해당 데이터는 모델이 효과적인 방식으로 학습할 수 있으려면 먼저 레이블을 지정하고 선별하고 구성해야 합니다. AI 생태계에서 가장 큰 누락된 링크 중 하나는 대규모 고품질 오픈 소스 다중 모드 데이터 세트의 가용성입니다. 오늘날 텍스트, 이미지, 비디오, 오디오 및 3D 포인트 클라우드의 5가지 형식에 걸쳐 10억 개의 데이터 쌍과 1억 개의 데이터 그룹으로 구성된 EMM-1 데이터 세트가 출시되면서 이러한 상황이 바뀌었습니다. 다중 모드 데이터 세트는 AI 시스템이 함께 처리할 수 있는 다양한 유형의 데이터를 결합합니다. 이는 인간이 여러 감각을 동시에 사용하여 세상을 인식하는 방식을 반영합니다. 이러한 데이터 세트를 통해 AI 시스템은 각 양식을 개별적으로 처리하는 대신 데이터 유형 간의 관계를 이해함으로써 더욱 풍부한 추론을 할 수 있습니다. EMM-1은 데이터 라벨링 플랫폼 공급업체인 Encord에서 개발했습니다
상세 분석
. 이 회사의 플랫폼을 통해 팀은 자동화된 워크플로와 인간 참여형 워크플로를 모두 사용하여 규모에 맞게 교육 데이터를 선별하고 레이블을 지정하고 관리할 수 있습니다. 새로운 모델과 함께 Encord는 원시 계산 규모보다 데이터 품질을 우선시하는 EBind 교육 방법론을 개발했습니다. 이 접근 방식을 사용하면 GPU 클러스터가 아닌 단일 GPU에서 훈련 시간을 며칠에서 몇 시간으로 단축하면서 최대 17배 더 큰 모델의 성능과 일치하는 컴팩트한 18억 매개변수 모델이 가능해졌습니다. Encord 공동 창립자이자 CEO인 Eric Landau는 VentureBeat와의 독점 인터뷰에서 “우리에게 가장 큰 비결은 데이터에 초점을 맞추고 데이터의 품질을 매우 높게 만드는 것이었습니다.”라고 말했습니다. “우리는 20배 더 큰 모델과 동일한 수준의 성능을 얻을 수 있었습니다. 이는 우리가 아키텍처에 대해 매우 영리했기 때문이 아니라 전반적으로 정말 좋은 데이터로 모델을 훈련했기 때문입니다.” 데이터 품질 이점Encord의 데이터 세트는 다음 비교 가능한 다중 모드 데이터 세트보다 100배 더 큽니다. Landau에 따르면.
정리
테라바이트 규모의 원시 데이터와 100만 개가 넘는 주석을 사용하여 페타바이트 규모로 작동합니다. 그러나 규모만으로는 성능 향상을 설명할 수 없습니다. 기술 혁신은 Landau가 AI 훈련에서 “과소평가된” 문제라고 부르는 것, 즉 훈련 세트와 평가 세트 사이의 데이터 누출을 해결하는 데 중점을 두고 있습니다. Landau는 “누출 문제는 우리가 많은 시간을 소비한 문제였습니다”라고 설명했습니다. “많은 데이터 세트에서 데이터의 서로 다른 하위 집합 사이에 일종의 누출이 있습니다. 누출은 실제로 결과를 향상시킵니다. 평가가 더 좋게 보입니다. 하지만 우리가 매우 부지런히 노력한 것 중 하나입니다.” 데이터 누출은 테스트 데이터의 정보가 훈련 데이터에 실수로 나타나 모델 성능 지표를 인위적으로 부풀릴 때 발생합니다.
자주 묻는 질문
Q. 어떤 정보를 제공하나요?
A. IT/기술 관련 최신 정보를 제공합니다.
Q. 신뢰할 수 있나요?
A. 검증된 출처만 선별합니다.
Q. 더 궁금한 점은?
A. 댓글로 문의하세요.
원문 출처
이 글은 원본 기사를 참고하여 작성되었습니다.
이 글과 함께 읽으면 좋은 글
-
→ Codev를 사용하면 |||를 생성하고 문서화하는 에이전트 팀을 통해 기업이 코딩 숙취를 피할 수 있습니다. 생성 AI를 사용하는 많은 소프트웨어 개발자에게 바이브 코딩은 양날의 검입니다. 이 프로세스는 신속한 프로토타입을 제공하지만 종종 상당한 기술적 부채를 발생시키는 취약하고 문서화되지 않은 코드의 흔적을 남깁니다. 새로운 오픈 소스 플랫폼인 Codev는 AI와의 자연어 대화를 실제 소스 코드의 일부로 처리하는 근본적인 변화를 제안하여 이 문제를 해결합니다. Codev는 바이브 코딩 대화를 코드 저장소의 일부가 되는 구조화되고 버전이 지정되며 감사 가능한 자산으로 전환하도록 설계된 프레임워크인 SP(IDE)R을 기반으로 합니다. Codev란 무엇입니까? Codev의 핵심은 바닐라 바이브 코딩의 경우처럼 일회용 아티팩트와 달리 자연어 컨텍스트를 개발 수명 주기의 필수 부분으로 처리하는 방법론입니다. 공동 창업자인 Waleed Kadous에 따르면 목표는 일반적인 엔지니어링 작업 흐름을 뒤집는 것입니다. “Codev의 핵심 원칙은 사양과 같은 문서가 시스템의 실제 코드라는 것입니다.”라고 그는 VentureBeat에 말했습니다. “우리 에이전트가 자연어를 Typescript로 컴파일하는 것과 거의 같습니다.” 이 접근 방식은 문서가 사후에 생성되는 일반적인 함정을 피합니다. 주력 프로토콜인 SP(IDE)R은 소프트웨어 구축을 위한 가볍지만 형식적인 구조를 제공합니다. 프로세스는 인간과 여러 AI 에이전트가 협력하여 높은 수준의 요청을 구체적인 승인 기준으로 바꾸는 지정(Specify)으로 시작됩니다. 다음으로 계획 단계에서는 AI가 단계별 구현을 제안하고 이를 다시 검토합니다. 각 단계마다 AI는 IDE 루프에 들어갑니다. 코드를 구현하고, 포괄적인 테스트를 통해 버그 및 회귀로부터 코드를 방어하고, 사양에 따라 결과를 평가합니다. 마지막 단계는 검토입니다. 여기서 팀은 향후 프로젝트를 위해 SP(IDE)R 프로토콜 자체를 업데이트하고 개선하기 위해 배운 교훈을 문서화합니다. 프레임워크의 주요 차별화 요소는 다양한 단계에서 여러 에이전트를 사용하고 명시적인 인적 검토를 수행한다는 것입니다. Kadous는 각 에이전트가 검토 프로세스에 고유한 장점을 제공한다고 지적합니다. 그는 “Gemini는 보안 문제를 포착하는 데 매우 능숙합니다.”라고 말하면서 중요한 XSS(교차 사이트 스크립팅) 결함과 “수천 달러의 비용이 소요될 수 있는 OpenAI API 키를 클라이언트와 공유했을 수 있는” 또 다른 버그를 언급했습니다. 한편, “GPT-5는 설계를 단순화하는 방법을 매우 잘 이해하고 있습니다.” 각 단계에서 사람이 최종 승인을 제공하는 이 구조화된 검토는 결함이 있는 코드로 이어지는 일종의 폭주 자동화를 방지합니다. 플랫폼의 AI 기반 철학은 설치까지 확장됩니다. 복잡한 기능은 없습니다
2025-10-18
-
→ Cisco는 기업에 경고합니다. 머신 데이터를 활용하지 않으면 AI 전략이 불완전합니다
2025-10-18
-
→ 이제 개발자는 Gemini 기반 AI 앱 출력에 실시간 Google 지도 데이터를 추가할 수 있습니다
2025-10-18
-
→ 이 스타트업은 점균류가 더 나은 도시를 설계하는 데 도움이 될 수 있다고 생각합니다
2025-10-18
-
→ 슬롭에서 소더비까지? AI 예술이 새로운 단계에 진입하다
2025-10-18

댓글