<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<style type="text/css" style="display:none;"> P {margin-top:0;margin-bottom:0;} </style>
</head>
<body dir="ltr">
<div class="elementToProof"><span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); background-color: rgb(255, 255, 255);"><b><u>GenBench: The second workshop on generalisation (benchmarking) in NLP<br>
</u></b></span><span style="font-family: Aptos, Aptos_EmbeddedFont, Aptos_MSFontService, Calibri, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);"><br>
</span><span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); background-color: rgb(255, 255, 255);"><b>Workshop description<br>
</b>The ability to generalise well is often mentioned as one of the primary desiderata for models of natural language processing (NLP).</span></div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
Yet, there are still many open questions related to what it means for an NLP model to generalise well, and how generalisation should be evaluated.</div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
LLMs, trained on gigantic training corpora that are – at best – hard to analyse or not publicly available at all, bring a new set of challenges to the topic.</div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
The second GenBench workshop aims to serve as a cornerstone to catalyse research on generalisation in the NLP community.</div>
<div style="background-color: rgb(255, 255, 255);">
<div style="text-align: left; text-indent: 0px; font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
The workshop aims to bring together different expert communities to discuss challenging questions relating to generalisation in NLP, crowd-source challenging generalisation benchmarks for LLMs, and make progress on open questions related to generalisation.<br>
<br>
Topics of interest include, but are not limited to:</div>
<ul style="text-align: left; flex-direction: column; display: flex;">
<li style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); align-self: start; text-indent: 0px; margin-left: 15px;">
<span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">Opinion or position papers about generalisation and how it should be evaluated;</span></li><li style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); align-self: start; margin-left: 15px;">
<span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">Analyses of how existing or new models generalise;</span></li><li style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); align-self: start; margin-left: 15px;">
<span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">Empirical studies that propose new paradigms to evaluate generalisation;</span></li><li style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); align-self: start; margin-left: 15px;">
<span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">Meta-analyses that compare how results from different generalisation studies compare;</span></li><li style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); align-self: start; margin-left: 15px;">
<span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">Meta-analyses that study how different types of generalisation are related;</span></li><li style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); align-self: start; margin-left: 15px;">
<span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">Papers that discuss how generalisation of LLMs can be evaluated;</span></li><li style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); align-self: start; margin-left: 15px;">
<span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">Papers that discuss why generalisation is (not) important in the era of LLMs;</span></li><li style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); align-self: start; margin-left: 15px;">
<span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">Studies on the relationship between generalisation and fairness or robustness.</span></li></ul>
<div style="text-align: left; font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
The second GenBench workshop on generalisation (benchmarking) in NLP will be co-located with EMNLP 2024.<br>
<br>
<b>Submission types</b><br>
We call for two types of submissions: regular workshop submissions and collaborative benchmarking task submissions.</div>
</div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
The latter will consist of a data/task artefact and a companion paper motivating and evaluating the submission.</div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-size: 9.75pt; color: rgb(34, 34, 34);">
<span style="font-family: Arial, Helvetica, sans-serif;">In both cases, we accept archival papers and extended abstracts.<br>
<br>
</span><span style="font-family: arial, sans-serif;"><b><i>1. </i></b></span><span style="font-family: Arial, Helvetica, sans-serif;"><b><i>Regular workshop submissions</i></b><br>
Regular workshop submissions present papers on the topic of generalisation (see examples listed above).</span></div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
Regular workshop papers may be submitted as an archival paper, when they report on completed, original and unpublished research, or as a shorter extended abstract, otherwise.</div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-size: 9.75pt;">
<span style="font-family: Arial, Helvetica, sans-serif; color: rgb(34, 34, 34);">More details on this category can be found below.<br>
If you are unsure whether a specific topic is well-suited for submission, feel free to reach out to the organisers of the workshop at
</span><span style="font-family: Arial, Helvetica, sans-serif; color: rgb(17, 85, 204);"><a href="mailto:genbench@googlegroups.com" target="_blank" id="OWA9ad5c161-615f-8588-61f2-ef95351316ba" class="OWAAutoLink" data-loopstyle="linkonly" style="color: rgb(17, 85, 204);">genbench@googlegroups.com</a></span><span style="font-family: Arial, Helvetica, sans-serif; color: rgb(34, 34, 34);">.<br>
<br>
</span><span style="font-family: arial, sans-serif; color: rgb(34, 34, 34);"><b><i>2.
</i></b></span><span style="font-family: Arial, Helvetica, sans-serif; color: rgb(34, 34, 34);"><b><i>Collaborative Benchmarking Task (CBT) submissions</i></b><br>
The goal of this year's CBT is to generate versions of existing evaluation datasets for LLMs which, given a particular training corpus, have a larger distribution shift than the original test set, or – in other words – evaluate generalisation to a stronger
 degree than the original dataset.<br>
For this particular challenge, we focus on three training corpora: C4, RedPajama-Data-1T, and Dolma.</span></div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt;">
<span style="color: rgb(34, 34, 34);">All three corpora are publicly available, and they can be searched via the What's in My Big Data API (</span><span style="color: rgb(17, 85, 204);"><a href="https://github.com/allenai/wimbd" target="_blank" id="OWAf9dbd6ea-c704-0b5f-031d-62aac3b90cd9" class="OWAAutoLink" data-saferedirecturl="https://www.google.com/url?q=https://github.com/allenai/wimbd&source=gmail&ust=1715012668946000&usg=AOvVaw14GeVjyPXHEIK5LYqYq6D3" data-loopstyle="linkonly" style="color: rgb(17, 85, 204);">https://github.com/allenai/<wbr style="color: rgb(17, 85, 204);">wimbd</a></span><span style="color: rgb(34, 34, 34);">).</span></div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
We will focus on three popular evaluation datasets: MMLU, HumanEval, and SiQA.<br>
Submitters to the CBT are asked to design a way to assess distribution shift for one or more of these evaluation datasets, given particular features of the training corpus, and then generate one or more versions of the dataset that have a larger distribution
 shift according to this method.</div>
<div style="background-color: rgb(255, 255, 255);">
<div style="text-align: left; text-indent: 0px; font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
Newly generated sets do not have to have the same size as the original test set, but should have at least 200 examples.<br>
Practically speaking, CBT submissions consist of:</div>
<ol start="1" style="text-align: left; flex-direction: column; display: flex;">
<li style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); align-self: start; text-indent: 0px; margin-left: 15px;">
<span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">the data/task artefact, submitted through
</span><span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(17, 85, 204);"><a href="https://github.com/GenBench/genbench_cbt" target="_blank" id="OWAc039e9e2-1d53-06b9-b7b7-beab4caad339" class="OWAAutoLink" data-saferedirecturl="https://www.google.com/url?q=https://github.com/GenBench/genbench_cbt&source=gmail&ust=1715012668946000&usg=AOvVaw1un5S48Q2FvcH3Tu3e8yEe" data-loopstyle="linkonly" style="color: rgb(17, 85, 204);">https://github.com/GenBench/<wbr style="color: rgb(17, 85, 204);">genbench_cbt</a></span></li><li style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); align-self: start; margin-left: 15px;">
<span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">a paper describing the dataset and its method of construction, submitted through
</span><span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(17, 85, 204);"><a href="https://openreview.net/group?id=GenBench.org/2024/Workshop" target="_blank" id="OWA94b4d804-295f-9559-3ef2-1dc20d05d730" class="OWAAutoLink" data-saferedirecturl="https://www.google.com/url?q=https://openreview.net/group?id%3DGenBench.org/2024/Workshop&source=gmail&ust=1715012668946000&usg=AOvVaw3L-ke0rJcx5o4yFt8ucXBw" data-loopstyle="linkonly" style="color: rgb(17, 85, 204);">https://openreview.net/group?<wbr style="color: rgb(17, 85, 204);">id=GenBench.org/2024/Workshop</a></span></li></ol>
<div style="text-align: left; font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
We accept submissions that consider only one pretraining dataset and evaluation dataset, but encourage submitters to apply their suggested protocols to both pretraining datasets.</div>
</div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
We also suggest that submitters include model results for models trained on these datasets.</div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt;">
<span style="color: rgb(34, 34, 34);">Suggestions are provided on the CBT website:
</span><span style="color: rgb(17, 85, 204);"><a href="https://genbench.org/cbt" target="_blank" id="OWAf8c3c813-dbd0-f74f-44b2-eedf8b5cd487" class="OWAAutoLink" data-saferedirecturl="https://www.google.com/url?q=https://genbench.org/cbt&source=gmail&ust=1715012668946000&usg=AOvVaw0BED83E2eozrkFJL8aGMyd" data-loopstyle="linkonly" style="color: rgb(17, 85, 204);">https://genbench.org/cbt</a></span><span style="color: rgb(34, 34, 34);">.</span></div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
Given enough high-quality submissions, we aim to write a paper with the combined results, to which submitters can be co-authors, if they wish so.</div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt;">
<span style="color: rgb(34, 34, 34);">More detailed guidelines will be given on </span>
<span style="color: rgb(17, 85, 204);"><a href="https://genbench.org/cbt" target="_blank" id="OWA8af90fe0-df66-e4b0-d1bc-13d53a81ccc1" class="OWAAutoLink" data-saferedirecturl="https://www.google.com/url?q=https://genbench.org/cbt&source=gmail&ust=1715012668946000&usg=AOvVaw0BED83E2eozrkFJL8aGMyd" data-loopstyle="linkonly" style="color: rgb(17, 85, 204);">https://genbench.org/cbt</a></span><span style="color: rgb(34, 34, 34);">.<br>
<br>
<b>Archival vs extended abstract</b><br>
Archival papers are up to 8 pages excluding references and report on completed, original and unpublished research.</span></div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
They follow the requirements of regular EMNLP 2024 submissions.</div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
Accepted papers will be published in the workshop proceedings and are expected to be presented at the workshop.</div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
The papers will undergo double-blind peer review and should thus be anonymised.</div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
Extended abstracts can be up to 2 pages excluding references, and may report on work in progress or be cross-submissions of work that has already appeared in another venue.</div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
Abstract titles will be posted on the workshop website, but will not be included in the proceedings.<br>
<br>
<b>Submission instructions<br>
</b>For both archival papers and extended abstracts, we refer to the EMNLP 2024 website for paper templates and requirements.</div>
<div style="background-color: rgb(255, 255, 255);">
<div style="text-align: left; text-indent: 0px; font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt;">
<span style="color: rgb(34, 34, 34);">Additional requirements for both regular workshop papers and collaborative benchmarking task submissions can be found on our website.<br>
All submissions can be submitted through OpenReview: </span><span style="color: rgb(17, 85, 204);"><a href="https://openreview.net/group?id=GenBench.org/2024/Workshop" target="_blank" id="OWAc641102a-4afd-022e-84a0-2a8dd64806da" class="OWAAutoLink" data-saferedirecturl="https://www.google.com/url?q=https://openreview.net/group?id%3DGenBench.org/2024/Workshop&source=gmail&ust=1715012668946000&usg=AOvVaw3L-ke0rJcx5o4yFt8ucXBw" data-loopstyle="linkonly" style="color: rgb(17, 85, 204);">https://openreview.net/group?<wbr style="color: rgb(17, 85, 204);">id=GenBench.org/2024/Workshop</a></span><span style="color: rgb(34, 34, 34);">.<br>
<br>
<b>Important dates</b><br>
These deadlines are tentative, for the latest version see </span><span style="color: rgb(17, 85, 204);"><a href="https://genbench.org/workshop" target="_blank" id="OWA9cdb9757-e64b-bef4-573c-f19bb3fb889b" class="OWAAutoLink" data-saferedirecturl="https://www.google.com/url?q=https://genbench.org/workshop&source=gmail&ust=1715012668946000&usg=AOvVaw3sPvYM0pV9Wlu42e4YX68o" data-loopstyle="linkonly" style="color: rgb(17, 85, 204);">https://genbench.org/workshop</a></span></div>
<ul style="text-align: left; flex-direction: column; display: flex;">
<li style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); align-self: start; text-indent: 0px; margin-left: 15px;">
<span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">August 15, 2024: Paper submission deadline</span></li><li style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); align-self: start; margin-left: 15px;">
<span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">September 20, 2024: Notification deadline</span></li><li style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); align-self: start; margin-left: 15px;">
<span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">October 4, 2024: Camera-ready deadline</span></li><li style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34); align-self: start; margin-left: 15px;">
<span style="font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">November 15 or 16, 2024: Workshop</span></li></ul>
<div style="text-align: left; font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt;">
<span style="color: rgb(34, 34, 34);">Note: all deadlines are 11:59 PM UTC-12:00<br>
<br>
<b>Preprints</b><br>
We do not have an anonymity deadline, preprints are allowed, both before the submission deadline as well as after.<br>
<br>
<b>Contact</b><br>
Email address: </span><span style="color: rgb(17, 85, 204);"><a href="mailto:genbench@googlegroups.com" target="_blank" id="OWAa0e0eefe-17a1-d1ca-5b24-3989b569f962" class="OWAAutoLink" data-loopstyle="linkonly" style="color: rgb(17, 85, 204);">genbench@googlegroups.com</a></span><span style="color: rgb(34, 34, 34);"><br>
Website: </span><span style="color: rgb(17, 85, 204);"><a href="https://genbench.org/workshop" target="_blank" id="OWA74abd5a1-2db2-e449-0ad8-fe757a12fd40" class="OWAAutoLink" data-saferedirecturl="https://www.google.com/url?q=https://genbench.org/workshop&source=gmail&ust=1715012668946000&usg=AOvVaw3sPvYM0pV9Wlu42e4YX68o" data-loopstyle="linkonly" style="color: rgb(17, 85, 204);">https://genbench.org/workshop</a></span></div>
</div>
<div style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
<br>
</div>
<div style="background-color: rgb(255, 255, 255);">
<div style="text-align: left; text-indent: 0px; font-family: arial, sans-serif; font-size: 9.75pt; color: rgb(34, 34, 34);">
<i>On behalf of the organisers<br>
</i>Dieuwke Hupkes<br>
Verna Dankers<br>
Khuyagbaatar Batsuren<br>
Amirhossein Kazemnejad<br>
Christos Christodoulopoulos<br>
Mario Giulianelli<br>
Ryan Cotterell</div>
</div>
<div class="elementToProof" style="text-align: left; text-indent: 0px; background-color: rgb(255, 255, 255); font-family: Aptos, Aptos_EmbeddedFont, Aptos_MSFontService, Calibri, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<br>
</div>
The University of Edinburgh is a charitable body, registered in Scotland, with registration number SC005336. Is e buidheann carthannais a th’ ann an Oilthigh Dhùn Èideann, clàraichte an Alba, àireamh clàraidh SC005336.
</body>
</html>